論文の概要: Context-Selective State Space Models: Feedback is All You Need
- arxiv url: http://arxiv.org/abs/2510.14027v1
- Date: Wed, 15 Oct 2025 19:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.590112
- Title: Context-Selective State Space Models: Feedback is All You Need
- Title(参考訳): コンテキスト選択型状態空間モデル:フィードバックは必要なすべて
- Authors: Riccardo Zattra, Giacomo Baggio, Umberto Casti, Augusto Ferrante, Francesco Ticozzi,
- Abstract要約: 状態フィードバックを組み込んだ時間変化SSMを導入し、コンテキスト依存の選択を可能にする。
COFFEEは、S6と比較して2桁のパラメータとトレーニングシーケンスでほぼ完璧な精度を達成する。
その結果、スケーラブルで効率的なシーケンスモデルを構築するための重要なメカニズムとして、状態フィードバックが果たす役割が示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers, powered by the attention mechanism, are the backbone of most foundation models, yet they suffer from quadratic complexity and difficulties in dealing with long-range dependencies in the input sequence. Recent work has shown that state space models (SSMs) provide an efficient alternative, with the S6 module at the core of the Mamba architecture achieving state-of-the-art results on long-sequence benchmarks. In this paper, we introduce the COFFEE (COntext From FEEdback) model, a novel time-varying SSM that incorporates state feedback to enable context-dependent selectivity, while still allowing for parallel implementation. Whereas the selectivity mechanism of S6 only depends on the current input, COFFEE computes it from the internal state, which serves as a compact representation of the sequence history. This shift allows the model to regulate its dynamics based on accumulated context, improving its ability to capture long-range dependencies. In addition to state feedback, we employ an efficient model parametrization that removes redundancies present in S6 and leads to a more compact and trainable formulation. On the induction head task, COFFEE achieves near-perfect accuracy with two orders of magnitude fewer parameters and training sequences compared to S6. On MNIST, COFFEE largely outperforms S6 within the same architecture, reaching 97% accuracy with only 3585 parameters. These results showcase the role of state feedback as a key mechanism for building scalable and efficient sequence models.
- Abstract(参考訳): トランスフォーマーは、アテンション機構によって駆動され、ほとんどの基礎モデルのバックボーンであるが、入力シーケンスにおける長距離依存を扱うのに2次的な複雑さと困難に悩まされている。
近年の研究では、状態空間モデル(SSM)が効率の良い代替手段となり、MambaアーキテクチャのコアにあるS6モジュールは、長期間のベンチマークで最先端の結果を達成することが示されている。
本稿では、状況に依存した選択性を実現するために状態フィードバックを組み込んだ新しい時間変化SSMであるCOFFEE(COntext From FEEdback)モデルを提案する。
S6の選択性メカニズムは現在の入力にのみ依存するが、COFFEEは内部状態からそれを計算し、シーケンス履歴のコンパクトな表現として機能する。
このシフトにより、モデルは蓄積されたコンテキストに基づいてそのダイナミクスを規制し、長距離依存関係をキャプチャする能力を向上させることができる。
状態フィードバックに加えて、S6に存在する冗長性を取り除き、よりコンパクトで訓練可能な定式化をもたらす効率的なモデルパラメトリゼーションを用いる。
誘導ヘッドタスクでは、COFFEEはS6に比べて2桁少ないパラメータとトレーニングシーケンスでほぼ完璧な精度を達成する。
MNISTでは、COFFEEは同じアーキテクチャでS6を上回っ、3585のパラメータで97%の精度に達した。
これらの結果は、スケーラブルで効率的なシーケンスモデルを構築するための重要なメカニズムとして、状態フィードバックの役割を示している。
関連論文リスト
- The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - SeRpEnt: Selective Resampling for Expressive State Space Models [5.7918134313332414]
状態空間モデル(SSM)は、最近、シークエンスモデリングのディープラーニング分野において注目されている。
我々は,マンバにおける選択時間間隔が情報の線形近似器として機能することを示す。
我々は、情報認識方式でシーケンスを圧縮するための選択性をさらに活用するSSMであるSeRpEntアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-01-20T20:27:50Z) - S7: Selective and Simplified State Space Layers for Sequence Modeling [26.727201015817524]
我々は、入力依存を処理し、入力の可変性を処理できるシンプルで強力なSSMであるS7を紹介する。
我々はS7が時間とともに状態遷移を良好に保ち、長期連続モデリングにおける安定性を保証することを証明した。
S7は、ニューロモルフィックイベントベースのデータセット、Long Range Arenaベンチマーク、さまざまな物理的および生物学的時系列など、さまざまなシーケンスモデリングタスクにおいて、ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-04T14:27:43Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Efficiently Modeling Long Sequences with Structured State Spaces [15.456254157293836]
本稿では,基本状態空間モデルに対する新しいパラメータ化に基づく新しいシーケンスモデルを提案する。
S4は、(i)データ拡張や補助損失を伴わないシーケンシャルCIFAR-10での91%の精度を含む、より大規模な2次元ResNetと同等の、さまざまな確立されたベンチマークで強力な実験結果を得る。
論文 参考訳(メタデータ) (2021-10-31T03:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。