論文の概要: Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms
- arxiv url: http://arxiv.org/abs/2408.00244v1
- Date: Thu, 1 Aug 2024 02:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 21:55:12.799548
- Title: Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms
- Title(参考訳): 群化FIRフィルタリングと注意シンク機構による構造空間モデルの構築
- Authors: Tian Meng, Yang Tao, Wuliang Yin,
- Abstract要約: 本稿では,A-乗算を複数のグループに分解することで課題を軽減する高度なアーキテクチャを提案する。
ストリーミング言語モデルで特定される「アテンションシンク」現象にインスパイアされ、モデルの安定性と性能を高めるための同様のメカニズムを組み込んだ。
- 参考スコア(独自算出の注目度): 0.6718184400443239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured State Space Models (SSMs) have emerged as compelling alternatives to Transformer architectures, offering linear-time complexity and superior performance in various sequence modeling tasks. Despite their advantages, SSMs like the original Mamba-2 face training difficulties due to the sensitivities introduced by the extended series of recurrent matrix multiplications. In this paper, we propose an advanced architecture that mitigates these challenges by decomposing A-multiplications into multiple groups and optimizing positional encoding through Grouped Finite Impulse Response (FIR) filtering. This new structure, denoted as Grouped FIR-enhanced SSM (GFSSM), employs semiseparable matrices for efficient computation. Furthermore, inspired by the "attention sink" phenomenon identified in streaming language models, we incorporate a similar mechanism to enhance the stability and performance of our model over extended sequences. Our approach further bridges the gap between SSMs and Transformer architectures, offering a viable path forward for scalable and high-performing sequence modeling.
- Abstract(参考訳): 構造化状態空間モデル (Structured State Space Models, SSM) は、トランスフォーマーアーキテクチャの魅力的な代替品として登場し、線形時間複雑性と様々なシーケンスモデリングタスクにおける優れたパフォーマンスを提供する。
それらの利点にもかかわらず、SSMは一連の連続行列乗算によって導入された感度のため、元のMamba-2の訓練困難に直面する。
本稿では,A-multiplicationsを複数のグループに分解し,FIR(Grouped Finite Impulse Response)フィルタリングによる位置エンコーディングを最適化することで,これらの課題を軽減できる高度なアーキテクチャを提案する。
この新たな構造は Grouped FIR-enhanced SSM (GFSSM) と呼ばれ、半分離行列を用いて効率的な計算を行う。
さらに、ストリーミング言語モデルで特定される「アテンションシンク」現象にインスパイアされ、拡張シーケンス上でのモデルの安定性と性能を高めるための同様のメカニズムを組み込んだ。
我々のアプローチは、SSMとTransformerアーキテクチャのギャップをさらに橋渡しし、スケーラブルで高性能なシーケンスモデリングのための実行可能なパスを提供する。
関連論文リスト
- TIMBA: Time series Imputation with Bi-directional Mamba Blocks and Diffusion models [0.0]
時間指向変換器を状態空間モデル(SSM)に置き換えることを提案する。
我々は、拡張表現を実現するために、SSM、グラフニューラルネットワーク、ノード指向変換器を統合するモデルを開発する。
論文 参考訳(メタデータ) (2024-10-08T11:10:06Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement [51.557804095896174]
AsLE-SSMという,グローバルな局所的バランスの取れたコンテキストエンコーディングとチャネル間相互作用の促進に空間スペクトルSSMを用いる状態空間モデルを導入する。
実験の結果,ASLE-SSMは既存の最先端手法よりも優れており,推定速度はTransformerベースのMSTより2.4倍速く,パラメータの0.12(M)を節約できることがわかった。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文 参考訳(メタデータ) (2024-05-27T17:46:57Z) - State Space Models as Foundation Models: A Control Theoretic Overview [3.3222241150972356]
近年、ディープニューラルネットワークアーキテクチャにおける線形状態空間モデル(SSM)の統合への関心が高まっている。
本論文は、制御理論者のためのSSMベースのアーキテクチャの穏やかな導入を目的としたものである。
もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。
論文 参考訳(メタデータ) (2024-03-25T16:10:47Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Block-State Transformers [41.57016890030355]
状態空間モデル(SSM)は、長距離依存のモデリングを必要とするタスクに対して印象的な結果を示している。
本稿では,長距離コンテキスト化のためのSSMサブレイヤを内部的に結合したBST(Block-State Transformer)というハイブリッド層を提案する。
我々のモデルは言語モデリングの難易度において類似のTransformerベースのアーキテクチャよりも優れており、より長いシーケンスに一般化できることを示す。
論文 参考訳(メタデータ) (2023-06-15T22:48:08Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。