論文の概要: Generalization Error Analysis for Selective State-Space Models Through the Lens of Attention
- arxiv url: http://arxiv.org/abs/2502.01473v2
- Date: Fri, 16 May 2025 19:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 17:08:52.046596
- Title: Generalization Error Analysis for Selective State-Space Models Through the Lens of Attention
- Title(参考訳): 注意レンズによる選択状態空間モデルの一般化誤差解析
- Authors: Arya Honarpisheh, Mustafa Bozdag, Octavia Camps, Mario Sznaier,
- Abstract要約: 状態空間モデル(SSM)は、シーケンスモデリングタスクのためのトランスフォーマーの魅力的な代替品として登場した。
本稿では,マンバモデルの背後にあるコアアーキテクチャコンポーネントである選択SSMの理論的一般化分析について述べる。
- 参考スコア(独自算出の注目度): 2.8998926117101367
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-space models (SSMs) have recently emerged as a compelling alternative to Transformers for sequence modeling tasks. This paper presents a theoretical generalization analysis of selective SSMs, the core architectural component behind the Mamba model. We derive a novel covering number-based generalization bound for selective SSMs, building upon recent theoretical advances in the analysis of Transformer models. Using this result, we analyze how the spectral abscissa of the continuous-time state matrix governs the model's training dynamics and its ability to generalize across sequence lengths. We empirically validate our findings on a synthetic majority task and the IMDb sentiment classification benchmark, illustrating how our theoretical insights translate into practical model behavior.
- Abstract(参考訳): 状態空間モデル(SSM)は、最近、シーケンスモデリングタスクのためのTransformerの魅力的な代替品として登場した。
本稿では,マンバモデルの背後にあるコアアーキテクチャコンポーネントである選択SSMの理論的一般化分析について述べる。
本稿では,代用変圧器モデルの解析における最近の理論的進歩を基礎として,選択型SSMの数値ベース一般化を包含する新しい手法を提案する。
この結果を用いて、連続時間状態行列のスペクトルアブシサがモデルのトレーニング力学とシーケンス長をまたいで一般化する能力をどのように支配するかを解析する。
我々は,実験によって得られた知見を,総合的多数決タスクとIMDb感情分類ベンチマークで実証的に検証し,理論的な洞察が実際のモデル行動にどのように変換するかを考察した。
関連論文リスト
- Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。
我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-05T17:45:42Z) - SeRpEnt: Selective Resampling for Expressive State Space Models [5.7918134313332414]
状態空間モデル(SSM)は、最近、シークエンスモデリングのディープラーニング分野において注目されている。
我々は,マンバにおける選択時間間隔が情報の線形近似器として機能することを示す。
我々は、情報認識方式でシーケンスを圧縮するための選択性をさらに活用するSSMであるSeRpEntアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-01-20T20:27:50Z) - Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing [56.66469232740998]
構造化状態空間モデル (Structured State Space Models, SSMs) は, 強い相対バイアスによって本質的に制限されていることを示す。
このバイアスにより、モデルが遠方の情報を思い出す能力が損なわれ、堅牢性の問題がもたらされる。
本研究では, 状態遷移行列の2つのチャネルをSSMで分極し, それぞれ0と1に設定し, 電流バイアスと過平滑化に同時に対処することを提案する。
論文 参考訳(メタデータ) (2024-12-31T22:06:39Z) - On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages [56.22289522687125]
SSM(Selective State-space Model)はTransformerの代替品である。
正規言語タスクにおける表現性や長さの一般化性能を解析する。
本稿では,Selective Dense State-Space Model (SD-SSM)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T20:53:04Z) - Autocorrelation Matters: Understanding the Role of Initialization Schemes for State Space Models [14.932318540666547]
状態空間モデル(SSM)パラメータを初期化する現在の手法は、HiPPOフレームワークに依存している。
入力シーケンスの自己相関を考慮し、SSMスキームの役割を更に検討する。
SSM状態行列の固有値の虚部がSSM最適化問題の条件付けを決定することを示す。
論文 参考訳(メタデータ) (2024-11-29T03:55:19Z) - Comparative Analysis of Pooling Mechanisms in LLMs: A Sentiment Analysis Perspective [0.0]
BERTやGPTのようなトランスフォーマーベースのモデルは、トークンレベルの埋め込みを文レベルの表現に集約するためにプール層に依存している。
Mean、Max、Weighted Sumといった一般的なプール機構は、この集約プロセスにおいて重要な役割を果たす。
本稿では,これらのプール機構が文レベル感情分析の文脈における2つの著名なLCMファミリー(BERTとGPT)に与える影響について検討する。
論文 参考訳(メタデータ) (2024-11-22T00:59:25Z) - Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms [0.6718184400443239]
本稿では,A-乗算を複数のグループに分解することで課題を軽減する高度なアーキテクチャを提案する。
ストリーミング言語モデルで特定される「アテンションシンク」現象にインスパイアされ、モデルの安定性と性能を高めるための同様のメカニズムを組み込んだ。
論文 参考訳(メタデータ) (2024-08-01T02:49:58Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Understanding Best Subset Selection: A Tale of Two C(omplex)ities [18.83617956033111]
高次元スパース線形回帰モデルにおけるベストサブセット選択(BSS)の問題点を考察する。
特に、識別可能性マージンと2つの複雑性尺度に応じて、必要条件と十分なマージン条件の両方を確立する。
論文 参考訳(メタデータ) (2023-01-16T04:52:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。