論文の概要: Can Mamba Learn In Context with Outliers? A Theoretical Generalization Analysis
- arxiv url: http://arxiv.org/abs/2510.00399v1
- Date: Wed, 01 Oct 2025 01:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.31931
- Title: Can Mamba Learn In Context with Outliers? A Theoretical Generalization Analysis
- Title(参考訳): マムバはアウトリーチの文脈で学べるか? : 理論的一般化分析
- Authors: Hongkang Li, Songtao Lu, Xiaodong Cui, Pin-Yu Chen, Meng Wang,
- Abstract要約: MambaモデルはTransformerベースのモデルよりも計算上の優位性に大きく注目されている。
本稿では,一層マンバモデルのトレーニング力学に関する最初の理論的解析を行った。
マムバは、より多くのトレーニングを必要とするかもしれないが、線形変換器が許容できるしきい値を超える場合であっても、正確な予測を保っている。
- 参考スコア(独自算出の注目度): 88.05636819649804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mamba model has gained significant attention for its computational advantages over Transformer-based models, while achieving comparable performance across a wide range of language tasks. Like Transformers, Mamba exhibits in-context learning (ICL) capabilities, i.e., making predictions for new tasks based on a prompt containing input-label pairs and a query, without requiring fine-tuning. Despite its empirical success, the theoretical understanding of Mamba remains limited, largely due to the nonlinearity introduced by its gating mechanism. To the best of our knowledge, this paper presents the first theoretical analysis of the training dynamics of a one-layer Mamba model, which consists of a linear attention component followed by a nonlinear gating layer, and its ICL generalization on unseen binary classification tasks, even when the prompt includes additive outliers. Our analysis shows that Mamba leverages the linear attention layer to select informative context examples and uses the nonlinear gating layer to suppress the influence of outliers. By establishing and comparing to the analysis of linear Transformers under the same setting, we show that although Mamba may require more training iterations to converge, it maintains accurate predictions even when the proportion of outliers exceeds the threshold that a linear Transformer can tolerate. These theoretical findings are supported by empirical experiments.
- Abstract(参考訳): Mambaモデルは、Transformerベースのモデルよりも計算上の優位性に大きく注目されている一方で、幅広い言語タスクで同等のパフォーマンスを実現している。
Transformersと同様に、Mambaはインコンテキスト学習(ICL)機能、すなわち入力ラベルペアとクエリを含むプロンプトに基づいて新しいタスクの予測を行う。
経験的な成功にもかかわらず、マンバの理論的な理解は依然として限られている。
そこで本研究では,線形注意成分と非線形ゲーティング層からなる一層マンバモデルのトレーニング力学に関する最初の理論的解析を行った。
分析の結果,Mambaは線形アテンション層を利用して情報的文脈の例を選択し,非線形ゲーティング層を用いて外れ値の影響を抑えることがわかった。
同じ条件下で線形変換器を定式化して比較することにより、Mambaはより訓練を繰り返して収束させる必要があるが、線形変換器が許容できるしきい値を超えても正確な予測を維持できることを示す。
これらの理論的な発見は実証実験によって裏付けられている。
関連論文リスト
- Trained Mamba Emulates Online Gradient Descent in In-Context Linear Regression [90.93281146423378]
Mambaは、Long-Sequence Modelingのための線形複雑性を持つ効率的なTransformer代替品である。
最近の実証研究は、Mambaのテキスト内学習(ICL)がTransformersと競合していることを示している。
本稿では,線形回帰 ICL タスクにおける Mamba のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2025-09-28T09:48:49Z) - From Markov to Laplace: How Mamba In-Context Learns Markov Chains [36.22373318908893]
我々はマルコフ連鎖の文脈内学習について研究し、驚くべき現象を明らかにする。
トランスとは異なり、単層マンバでさえ、文脈内ラプラシアスムージング推定器を効率的に学習する。
これらの理論的な洞察は経験的な結果と強く一致し、マンバと最適統計推定器の間の最初の公式な関係を表す。
論文 参考訳(メタデータ) (2025-02-14T14:13:55Z) - Rethinking Associative Memory Mechanism in Induction Head [37.93644115914534]
本稿では,2層トランスフォーマーがコンテキスト内情報を網羅的に捕捉し,事前学習したビッグラム知識とバランスをとる方法について検討する。
本稿では,注目層における重み行列の表現と,変換器がビッグラムモデルによって生成されたプロンプトを付与した場合のロジットを理論的に解析する。
論文 参考訳(メタデータ) (2024-12-16T05:33:05Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。