論文の概要: Trained Mamba Emulates Online Gradient Descent in In-Context Linear Regression
- arxiv url: http://arxiv.org/abs/2509.23779v1
- Date: Sun, 28 Sep 2025 09:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.443334
- Title: Trained Mamba Emulates Online Gradient Descent in In-Context Linear Regression
- Title(参考訳): トレーニングされたマンバは、インコンテキストリニア回帰におけるオンライン勾配の沈み込みをエミュレートする
- Authors: Jiarui Jiang, Wei Huang, Miao Zhang, Taiji Suzuki, Liqiang Nie,
- Abstract要約: Mambaは、Long-Sequence Modelingのための線形複雑性を持つ効率的なTransformer代替品である。
最近の実証研究は、Mambaのテキスト内学習(ICL)がTransformersと競合していることを示している。
本稿では,線形回帰 ICL タスクにおける Mamba のトレーニングダイナミクスについて検討する。
- 参考スコア(独自算出の注目度): 90.93281146423378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-space models (SSMs), particularly Mamba, emerge as an efficient Transformer alternative with linear complexity for long-sequence modeling. Recent empirical works demonstrate Mamba's in-context learning (ICL) capabilities competitive with Transformers, a critical capacity for large foundation models. However, theoretical understanding of Mamba's ICL remains limited, restricting deeper insights into its underlying mechanisms. Even fundamental tasks such as linear regression ICL, widely studied as a standard theoretical benchmark for Transformers, have not been thoroughly analyzed in the context of Mamba. To address this gap, we study the training dynamics of Mamba on the linear regression ICL task. By developing novel techniques tackling non-convex optimization with gradient descent related to Mamba's structure, we establish an exponential convergence rate to ICL solution, and derive a loss bound that is comparable to Transformer's. Importantly, our results reveal that Mamba can perform a variant of \textit{online gradient descent} to learn the latent function in context. This mechanism is different from that of Transformer, which is typically understood to achieve ICL through gradient descent emulation. The theoretical results are verified by experimental simulation.
- Abstract(参考訳): 状態空間モデル(SSM)、特にMambaは、長いシーケンスモデリングのための線形複雑性を持つ効率的なトランスフォーマーとして登場した。
最近の実証研究は、Mambaのインコンテキスト学習(ICL)能力がTransformersと競合していることを示している。
しかしながら、マンバのICLに関する理論的理解は限定的であり、その基盤となるメカニズムに関する深い洞察を制限している。
線形回帰 ICL のような基本的なタスクでさえ、トランスフォーマーの標準的な理論ベンチマークとして広く研究されており、マンバの文脈では完全には分析されていない。
このギャップに対処するために,線形回帰 ICL タスクにおける Mamba のトレーニングダイナミクスについて検討する。
非凸最適化とマンバの構造に関する勾配降下に対処する新しい手法を開発することにより、ICL解に対する指数収束率を確立し、トランスフォーマーに匹敵する損失境界を導出する。
重要なことは、マムバが文脈で潜在関数を学習するために \textit{online gradient descent} の変種を実行できることを明らかにする。
このメカニズムは、勾配降下エミュレーションによってICLを達成するために一般的に理解されるTransformerとは異なる。
理論的結果は実験により検証される。
関連論文リスト
- Differential Mamba [16.613266337054267]
TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。
最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。
本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
論文 参考訳(メタデータ) (2025-07-08T17:30:14Z) - Probing In-Context Learning: Impact of Task Complexity and Model Architecture on Generalization and Efficiency [10.942999793311765]
タスクの複雑さとモデルアーキテクチャを体系的に変化させる、巧妙な実験フレームワークを用いて、文脈内学習(ICL)について検討する。
GPT2スタイルのトランスフォーマー、FlashAttention機構を備えたトランスフォーマー、畳み込みハイエナモデル、Mamba状態空間モデルという4つの異なるモデルを評価した。
論文 参考訳(メタデータ) (2025-05-10T00:22:40Z) - From Markov to Laplace: How Mamba In-Context Learns Markov Chains [36.22373318908893]
我々はマルコフ連鎖の文脈内学習について研究し、驚くべき現象を明らかにする。
トランスとは異なり、単層マンバでさえ、文脈内ラプラシアスムージング推定器を効率的に学習する。
これらの理論的な洞察は経験的な結果と強く一致し、マンバと最適統計推定器の間の最初の公式な関係を表す。
論文 参考訳(メタデータ) (2025-02-14T14:13:55Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。