論文の概要: Selection Mechanisms for Sequence Modeling using Linear State Space Models
- arxiv url: http://arxiv.org/abs/2505.17932v1
- Date: Fri, 23 May 2025 14:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.140255
- Title: Selection Mechanisms for Sequence Modeling using Linear State Space Models
- Title(参考訳): 線形状態空間モデルを用いたシーケンスモデリングのための選択機構
- Authors: Umberto Casti, Sandro Zampieri, Fabio Pasqualetti,
- Abstract要約: 制御理論の方法論に触発された代替選択機構を導入する。
本稿では,線形時間不変(LTI)システムにおける異常検出戦略に類似した,新しい選択用残差発生器を提案する。
提案手法は,複数のLTIシステムを組み合わせて,学習中に有益な特性を保ちながら,同等の選択性を実現している。
- 参考スコア(独自算出の注目度): 2.4374097382908477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in language modeling tasks have been driven by architectures such as Transformers and, more recently, by Selective State Space Models (SSMs). In this paper, we introduce an alternative selection mechanism inspired by control theory methodologies. Specifically, we propose a novel residual generator for selection, drawing an analogy to fault detection strategies in Linear Time-Invariant (LTI) systems. Unlike Mamba, which utilizes Linear Time-Varying (LTV) systems, our approach combines multiple LTI systems, preserving their beneficial properties during training while achieving comparable selectivity. To evaluate the effectiveness of the proposed architecture, we test its performance on synthetic tasks. While these tasks are not inherently critical, they serve as benchmarks to test the selectivity properties of different cores architecture. This work highlights the potential of integrating theoretical insights with experimental advancements, offering a complementary perspective to deep learning innovations at the intersection of control theory and machine learning.
- Abstract(参考訳): 言語モデリングタスクの最近の進歩は、Transformerのようなアーキテクチャや、最近ではSSM(Selective State Space Models)によって推進されている。
本稿では,制御理論に着想を得た代替選択機構を提案する。
具体的には,Linear Time-Invariant (LTI)システムにおける障害検出戦略に類似した,新しい選択用残差発生器を提案する。
線形時間バリアリング(LTV)システムを利用するMambaとは違い,本手法は複数のLTIシステムを組み合わせて,学習中に有益な特性を保ちながら,同等の選択性を実現している。
提案手法の有効性を評価するため,提案手法の性能試験を行った。
これらのタスクは本質的には重要なものではないが、異なるコアアーキテクチャの選択性をテストするベンチマークとして機能する。
この研究は、理論的な洞察と実験的な進歩を統合する可能性を強調し、制御理論と機械学習の交差点におけるディープラーニングのイノベーションを補完する視点を提供する。
関連論文リスト
- Vehicle Suspension Recommendation System: Multi-Fidelity Neural Network-based Mechanism Design Optimization [4.038368925548051]
自動車のサスペンションは運転性能と乗り心地を改善するように設計されているが、環境によって異なる種類が利用できる。
従来の設計プロセスは多段階であり、設計候補の数を徐々に減らし、目標性能を満たすためにコスト分析を行う。
近年、AIモデルはFAAの計算コストの削減に利用されている。
論文 参考訳(メタデータ) (2024-10-03T23:54:03Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。
本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Online simulator-based experimental design for cognitive model selection [74.76661199843284]
本稿では,抽出可能な確率を伴わない計算モデルを選択する実験設計手法BOSMOSを提案する。
シミュレーション実験では,提案手法により,既存のLFI手法に比べて最大2桁の精度でモデルを選択することができることを示した。
論文 参考訳(メタデータ) (2023-03-03T21:41:01Z) - A Pareto-optimal compositional energy-based model for sampling and
optimization of protein sequences [55.25331349436895]
深層生成モデルは、生命科学における逆問題に対する一般的な機械学習ベースのアプローチとして登場した。
これらの問題は、データ分布の学習に加えて、興味のある複数の特性を満たす新しい設計をサンプリングする必要があることが多い。
論文 参考訳(メタデータ) (2022-10-19T19:04:45Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。