論文の概要: Generalization Error Analysis for Selective State-Space Models Through the Lens of Attention
- arxiv url: http://arxiv.org/abs/2502.01473v2
- Date: Fri, 16 May 2025 19:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 17:08:52.046596
- Title: Generalization Error Analysis for Selective State-Space Models Through the Lens of Attention
- Title(参考訳): 注意レンズによる選択状態空間モデルの一般化誤差解析
- Authors: Arya Honarpisheh, Mustafa Bozdag, Octavia Camps, Mario Sznaier,
- Abstract要約: 状態空間モデル(SSM)は、シーケンスモデリングタスクのためのトランスフォーマーの魅力的な代替品として登場した。
本稿では,マンバモデルの背後にあるコアアーキテクチャコンポーネントである選択SSMの理論的一般化分析について述べる。
- 参考スコア(独自算出の注目度): 2.8998926117101367
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-space models (SSMs) have recently emerged as a compelling alternative to Transformers for sequence modeling tasks. This paper presents a theoretical generalization analysis of selective SSMs, the core architectural component behind the Mamba model. We derive a novel covering number-based generalization bound for selective SSMs, building upon recent theoretical advances in the analysis of Transformer models. Using this result, we analyze how the spectral abscissa of the continuous-time state matrix governs the model's training dynamics and its ability to generalize across sequence lengths. We empirically validate our findings on a synthetic majority task and the IMDb sentiment classification benchmark, illustrating how our theoretical insights translate into practical model behavior.
- Abstract(参考訳): 状態空間モデル(SSM)は、最近、シーケンスモデリングタスクのためのTransformerの魅力的な代替品として登場した。
本稿では,マンバモデルの背後にあるコアアーキテクチャコンポーネントである選択SSMの理論的一般化分析について述べる。
本稿では,代用変圧器モデルの解析における最近の理論的進歩を基礎として,選択型SSMの数値ベース一般化を包含する新しい手法を提案する。
この結果を用いて、連続時間状態行列のスペクトルアブシサがモデルのトレーニング力学とシーケンス長をまたいで一般化する能力をどのように支配するかを解析する。
我々は,実験によって得られた知見を,総合的多数決タスクとIMDb感情分類ベンチマークで実証的に検証し,理論的な洞察が実際のモデル行動にどのように変換するかを考察した。
関連論文リスト
- Algorithm- and Data-Dependent Generalization Bounds for Score-Based Generative Models [27.78637798976204]
スコアベース生成モデル(SGM)は、生成モデルの最も一般的なクラスの一つである。
本稿では,SGMのためのアルゴリズムおよびデータ依存分析法を提案する。
特に、学習アルゴリズムのダイナミクスを説明し、SGMの振る舞いに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-06-04T11:33:04Z) - Advancing Generalization Across a Variety of Abstract Visual Reasoning Tasks [0.0]
正規化群畳み込みモデル(PoNG)の経路について述べる。
PoNGは、グループ畳み込み、正規化、並列設計を特徴とする、新しいニューラルアーキテクチャである。
実験では,提案モデルが既存の文献手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-19T17:32:07Z) - Learning to Dissipate Energy in Oscillatory State-Space Models [55.09730499143998]
状態空間モデル (SSM) はシーケンス学習のためのネットワークのクラスである。
我々は,D-LinOSSがLinOSSの手法を長距離学習タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-05-17T23:15:17Z) - Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。
我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-05T17:45:42Z) - SeRpEnt: Selective Resampling for Expressive State Space Models [5.7918134313332414]
状態空間モデル(SSM)は、最近、シークエンスモデリングのディープラーニング分野において注目されている。
我々は,マンバにおける選択時間間隔が情報の線形近似器として機能することを示す。
我々は、情報認識方式でシーケンスを圧縮するための選択性をさらに活用するSSMであるSeRpEntアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-01-20T20:27:50Z) - Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing [56.66469232740998]
構造化状態空間モデル (Structured State Space Models, SSMs) は, 強い相対バイアスによって本質的に制限されていることを示す。
このバイアスにより、モデルが遠方の情報を思い出す能力が損なわれ、堅牢性の問題がもたらされる。
本研究では, 状態遷移行列の2つのチャネルをSSMで分極し, それぞれ0と1に設定し, 電流バイアスと過平滑化に同時に対処することを提案する。
論文 参考訳(メタデータ) (2024-12-31T22:06:39Z) - On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages [56.22289522687125]
SSM(Selective State-space Model)はTransformerの代替品である。
正規言語タスクにおける表現性や長さの一般化性能を解析する。
本稿では,Selective Dense State-Space Model (SD-SSM)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T20:53:04Z) - Deep Learning-based Approaches for State Space Models: A Selective Review [15.295157876811066]
状態空間モデル(SSM)は動的システム解析のための強力なフレームワークを提供する。
本稿では、SSMに対するディープニューラルネットワークに基づくアプローチの最近の進歩を選択的にレビューする。
論文 参考訳(メタデータ) (2024-12-15T15:04:35Z) - Autocorrelation Matters: Understanding the Role of Initialization Schemes for State Space Models [14.932318540666547]
状態空間モデル(SSM)パラメータを初期化する現在の手法は、HiPPOフレームワークに依存している。
入力シーケンスの自己相関を考慮し、SSMスキームの役割を更に検討する。
SSM状態行列の固有値の虚部がSSM最適化問題の条件付けを決定することを示す。
論文 参考訳(メタデータ) (2024-11-29T03:55:19Z) - Comparative Analysis of Pooling Mechanisms in LLMs: A Sentiment Analysis Perspective [0.0]
BERTやGPTのようなトランスフォーマーベースのモデルは、トークンレベルの埋め込みを文レベルの表現に集約するためにプール層に依存している。
Mean、Max、Weighted Sumといった一般的なプール機構は、この集約プロセスにおいて重要な役割を果たす。
本稿では,これらのプール機構が文レベル感情分析の文脈における2つの著名なLCMファミリー(BERTとGPT)に与える影響について検討する。
論文 参考訳(メタデータ) (2024-11-22T00:59:25Z) - Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間列を表現するために設計された新しい深部力学モデルを提案する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
振動系, ビデオ, 実世界の状態系列(MuJoCo)の実験結果から, 学習可能なエネルギーベース先行モデルの方が既存のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms [0.6718184400443239]
本稿では,A-乗算を複数のグループに分解することで課題を軽減する高度なアーキテクチャを提案する。
ストリーミング言語モデルで特定される「アテンションシンク」現象にインスパイアされ、モデルの安定性と性能を高めるための同様のメカニズムを組み込んだ。
論文 参考訳(メタデータ) (2024-08-01T02:49:58Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - From Generalization Analysis to Optimization Designs for State Space Models [14.932318540666547]
状態空間モデル (SSM) は時系列解析の基礎モデルである。
一般化結果に基づく学習アルゴリズムの改良を提案する。
論文 参考訳(メタデータ) (2024-05-04T13:58:03Z) - State Space Models as Foundation Models: A Control Theoretic Overview [3.3222241150972356]
近年、ディープニューラルネットワークアーキテクチャにおける線形状態空間モデル(SSM)の統合への関心が高まっている。
本論文は、制御理論者のためのSSMベースのアーキテクチャの穏やかな導入を目的としたものである。
もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。
論文 参考訳(メタデータ) (2024-03-25T16:10:47Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Representer Point Selection for Explaining Regularized High-dimensional
Models [105.75758452952357]
本稿では,高次元表現器と呼ぶサンプルベース説明のクラスを紹介する。
私たちのワークホースは、一般化された高次元モデルに対する新しい代表者定理である。
提案手法の実証的性能について,実世界の2進分類データセットと2つの推薦システムデータセットを用いて検討した。
論文 参考訳(メタデータ) (2023-05-31T16:23:58Z) - Understanding Best Subset Selection: A Tale of Two C(omplex)ities [18.83617956033111]
高次元スパース線形回帰モデルにおけるベストサブセット選択(BSS)の問題点を考察する。
特に、識別可能性マージンと2つの複雑性尺度に応じて、必要条件と十分なマージン条件の両方を確立する。
論文 参考訳(メタデータ) (2023-01-16T04:52:46Z) - Distributed Bayesian Learning of Dynamic States [65.7870637855531]
提案アルゴリズムは有限状態隠れマルコフモデルに対する分散ベイズフィルタタスクである。
逐次状態推定や、動的環境下でのソーシャルネットワーク上での意見形成のモデル化に使用できる。
論文 参考訳(メタデータ) (2022-12-05T19:40:17Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。