論文の概要: Generalization Error Analysis for Selective State-Space Models Through the Lens of Attention
- arxiv url: http://arxiv.org/abs/2502.01473v1
- Date: Mon, 03 Feb 2025 16:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:55.140074
- Title: Generalization Error Analysis for Selective State-Space Models Through the Lens of Attention
- Title(参考訳): 注意レンズによる選択状態空間モデルの一般化誤差解析
- Authors: Arya Honarpisheh, Mustafa Bozdag, Mario Sznaier, Octavia Camps,
- Abstract要約: ステートスペースモデル(State-space Model、SSM)は、トランスフォーマーの代替として登場した新しい基礎モデルである。
本稿では,MambaアーキテクチャとMamba-2アーキテクチャのコアコンポーネントである選択SSMの詳細な理論的解析を行う。
- 参考スコア(独自算出の注目度): 2.8998926117101367
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-space models (SSMs) are a new class of foundation models that have emerged as a compelling alternative to Transformers and their attention mechanisms for sequence processing tasks. This paper provides a detailed theoretical analysis of selective SSMs, the core components of the Mamba and Mamba-2 architectures. We leverage the connection between selective SSMs and the self-attention mechanism to highlight the fundamental similarities between these models. Building on this connection, we establish a length independent covering number-based generalization bound for selective SSMs, providing a deeper understanding of their theoretical performance guarantees. We analyze the effects of state matrix stability and input-dependent discretization, shedding light on the critical role played by these factors in the generalization capabilities of selective SSMs. Finally, we empirically demonstrate the sequence length independence of the derived bounds on two tasks.
- Abstract(参考訳): 状態空間モデル(SSM)は、トランスフォーマーの魅力的な代替品として登場した新しい基礎モデルのクラスであり、シーケンス処理タスクのアテンションメカニズムである。
本稿では,MambaアーキテクチャとMamba-2アーキテクチャのコアコンポーネントである選択SSMの詳細な理論的解析を行う。
選択的なSSMと自己認識機構の接続を利用して、これらのモデル間の基本的な類似点を明らかにする。
この接続に基づいて、選択的なSSMに対して有界な被覆数に基づく長独立一般化を確立し、それらの理論的性能保証についてより深く理解する。
我々は、状態行列安定性と入力依存離散化の影響を解析し、選択SSMの一般化能力においてこれらの因子が果たす重要な役割について光を遮蔽する。
最後に、2つのタスクで導出した境界のシーケンス長独立性を実証的に示す。
関連論文リスト
- Algorithm- and Data-Dependent Generalization Bounds for Score-Based Generative Models [27.78637798976204]
スコアベース生成モデル(SGM)は、生成モデルの最も一般的なクラスの一つである。
本稿では,SGMのためのアルゴリズムおよびデータ依存分析法を提案する。
特に、学習アルゴリズムのダイナミクスを説明し、SGMの振る舞いに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-06-04T11:33:04Z) - Advancing Generalization Across a Variety of Abstract Visual Reasoning Tasks [0.0]
正規化群畳み込みモデル(PoNG)の経路について述べる。
PoNGは、グループ畳み込み、正規化、並列設計を特徴とする、新しいニューラルアーキテクチャである。
実験では,提案モデルが既存の文献手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-19T17:32:07Z) - Learning to Dissipate Energy in Oscillatory State-Space Models [55.09730499143998]
状態空間モデル (SSM) はシーケンス学習のためのネットワークのクラスである。
我々は,D-LinOSSがLinOSSの手法を長距離学習タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-05-17T23:15:17Z) - Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。
我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-05T17:45:42Z) - SeRpEnt: Selective Resampling for Expressive State Space Models [5.7918134313332414]
状態空間モデル(SSM)は、最近、シークエンスモデリングのディープラーニング分野において注目されている。
我々は,マンバにおける選択時間間隔が情報の線形近似器として機能することを示す。
我々は、情報認識方式でシーケンスを圧縮するための選択性をさらに活用するSSMであるSeRpEntアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-01-20T20:27:50Z) - Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing [56.66469232740998]
構造化状態空間モデル (Structured State Space Models, SSMs) は, 強い相対バイアスによって本質的に制限されていることを示す。
このバイアスにより、モデルが遠方の情報を思い出す能力が損なわれ、堅牢性の問題がもたらされる。
本研究では, 状態遷移行列の2つのチャネルをSSMで分極し, それぞれ0と1に設定し, 電流バイアスと過平滑化に同時に対処することを提案する。
論文 参考訳(メタデータ) (2024-12-31T22:06:39Z) - On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages [56.22289522687125]
SSM(Selective State-space Model)はTransformerの代替品である。
正規言語タスクにおける表現性や長さの一般化性能を解析する。
本稿では,Selective Dense State-Space Model (SD-SSM)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T20:53:04Z) - Deep Learning-based Approaches for State Space Models: A Selective Review [15.295157876811066]
状態空間モデル(SSM)は動的システム解析のための強力なフレームワークを提供する。
本稿では、SSMに対するディープニューラルネットワークに基づくアプローチの最近の進歩を選択的にレビューする。
論文 参考訳(メタデータ) (2024-12-15T15:04:35Z) - Autocorrelation Matters: Understanding the Role of Initialization Schemes for State Space Models [14.932318540666547]
状態空間モデル(SSM)パラメータを初期化する現在の手法は、HiPPOフレームワークに依存している。
入力シーケンスの自己相関を考慮し、SSMスキームの役割を更に検討する。
SSM状態行列の固有値の虚部がSSM最適化問題の条件付けを決定することを示す。
論文 参考訳(メタデータ) (2024-11-29T03:55:19Z) - Comparative Analysis of Pooling Mechanisms in LLMs: A Sentiment Analysis Perspective [0.0]
BERTやGPTのようなトランスフォーマーベースのモデルは、トークンレベルの埋め込みを文レベルの表現に集約するためにプール層に依存している。
Mean、Max、Weighted Sumといった一般的なプール機構は、この集約プロセスにおいて重要な役割を果たす。
本稿では,これらのプール機構が文レベル感情分析の文脈における2つの著名なLCMファミリー(BERTとGPT)に与える影響について検討する。
論文 参考訳(メタデータ) (2024-11-22T00:59:25Z) - Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間列を表現するために設計された新しい深部力学モデルを提案する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
振動系, ビデオ, 実世界の状態系列(MuJoCo)の実験結果から, 学習可能なエネルギーベース先行モデルの方が既存のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms [0.6718184400443239]
本稿では,A-乗算を複数のグループに分解することで課題を軽減する高度なアーキテクチャを提案する。
ストリーミング言語モデルで特定される「アテンションシンク」現象にインスパイアされ、モデルの安定性と性能を高めるための同様のメカニズムを組み込んだ。
論文 参考訳(メタデータ) (2024-08-01T02:49:58Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - From Generalization Analysis to Optimization Designs for State Space Models [14.932318540666547]
状態空間モデル (SSM) は時系列解析の基礎モデルである。
一般化結果に基づく学習アルゴリズムの改良を提案する。
論文 参考訳(メタデータ) (2024-05-04T13:58:03Z) - State Space Models as Foundation Models: A Control Theoretic Overview [3.3222241150972356]
近年、ディープニューラルネットワークアーキテクチャにおける線形状態空間モデル(SSM)の統合への関心が高まっている。
本論文は、制御理論者のためのSSMベースのアーキテクチャの穏やかな導入を目的としたものである。
もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。
論文 参考訳(メタデータ) (2024-03-25T16:10:47Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Representer Point Selection for Explaining Regularized High-dimensional
Models [105.75758452952357]
本稿では,高次元表現器と呼ぶサンプルベース説明のクラスを紹介する。
私たちのワークホースは、一般化された高次元モデルに対する新しい代表者定理である。
提案手法の実証的性能について,実世界の2進分類データセットと2つの推薦システムデータセットを用いて検討した。
論文 参考訳(メタデータ) (2023-05-31T16:23:58Z) - Understanding Best Subset Selection: A Tale of Two C(omplex)ities [18.83617956033111]
高次元スパース線形回帰モデルにおけるベストサブセット選択(BSS)の問題点を考察する。
特に、識別可能性マージンと2つの複雑性尺度に応じて、必要条件と十分なマージン条件の両方を確立する。
論文 参考訳(メタデータ) (2023-01-16T04:52:46Z) - Distributed Bayesian Learning of Dynamic States [65.7870637855531]
提案アルゴリズムは有限状態隠れマルコフモデルに対する分散ベイズフィルタタスクである。
逐次状態推定や、動的環境下でのソーシャルネットワーク上での意見形成のモデル化に使用できる。
論文 参考訳(メタデータ) (2022-12-05T19:40:17Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。