論文の概要: Mamba Can Learn Low-Dimensional Targets In-Context via Test-Time Feature Learning
- arxiv url: http://arxiv.org/abs/2510.12026v2
- Date: Wed, 15 Oct 2025 01:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 13:11:49.473587
- Title: Mamba Can Learn Low-Dimensional Targets In-Context via Test-Time Feature Learning
- Title(参考訳): Mambaはテスト時間特徴学習を通じて低次元ターゲットをインコンテキストで学習できる
- Authors: Junsoo Oh, Wei Huang, Taiji Suzuki,
- Abstract要約: Mambaは、強い経験的性能を持つ線形時間列モデルである。
単一インデックスモデル $y approx g_* (langle boldsymbolbeta, boldsymbolx rangle)$ の文脈内学習について検討する。
勾配に基づく手法で事前学習したMambaは,テスト時間特徴学習によって効率的なICLを実現することができることを示す。
- 参考スコア(独自算出の注目度): 53.983686308399676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mamba, a recently proposed linear-time sequence model, has attracted significant attention for its computational efficiency and strong empirical performance. However, a rigorous theoretical understanding of its underlying mechanisms remains limited. In this work, we provide a theoretical analysis of Mamba's in-context learning (ICL) capability by focusing on tasks defined by low-dimensional nonlinear target functions. Specifically, we study in-context learning of a single-index model $y \approx g_*(\langle \boldsymbol{\beta}, \boldsymbol{x} \rangle)$, which depends on only a single relevant direction $\boldsymbol{\beta}$, referred to as feature. We prove that Mamba, pretrained by gradient-based methods, can achieve efficient ICL via test-time feature learning, extracting the relevant direction directly from context examples. Consequently, we establish a test-time sample complexity that improves upon linear Transformers -- analyzed to behave like kernel methods -- and is comparable to nonlinear Transformers, which have been shown to surpass the Correlational Statistical Query (CSQ) lower bound and achieve near information-theoretically optimal rate in previous works. Our analysis reveals the crucial role of the nonlinear gating mechanism in Mamba for feature extraction, highlighting it as the fundamental driver behind Mamba's ability to achieve both computational efficiency and high performance.
- Abstract(参考訳): 最近提案された線形時間列モデルであるMambaは、その計算効率と強力な経験的性能で大きな注目を集めている。
しかし、その基盤となるメカニズムに関する厳密な理論的理解は依然として限られている。
本研究では,低次元非線形対象関数によって定義されるタスクに着目し,マンバの文脈内学習(ICL)能力に関する理論的解析を行う。
具体的には、単一インデックスモデル $y \approx g_*(\langle \boldsymbol{\beta}, \boldsymbol{x} \rangle)$ の文脈内学習について検討する。
勾配に基づく手法によって事前訓練されたMambaは,テスト時間特徴学習によって効率的なICLを実現し,コンテキストの例から関連する方向を直接抽出できることを実証する。
その結果、線形トランスフォーマー(カーネルメソッドのように振る舞うように解析される)を改善したテスト時間サンプルの複雑さを確立し、相関統計クエリ(CSQ)の下限を超越し、以前の研究でほぼ情報理論的に最適な速度を達成することが示されている非線形トランスフォーマーに匹敵する。
本分析により,マンバの非線形ゲーティング機構が特徴抽出において重要な役割を担っていることが明らかとなった。
関連論文リスト
- Can Mamba Learn In Context with Outliers? A Theoretical Generalization Analysis [88.05636819649804]
MambaモデルはTransformerベースのモデルよりも計算上の優位性に大きく注目されている。
本稿では,一層マンバモデルのトレーニング力学に関する最初の理論的解析を行った。
マムバは、より多くのトレーニングを必要とするかもしれないが、線形変換器が許容できるしきい値を超える場合であっても、正確な予測を保っている。
論文 参考訳(メタデータ) (2025-10-01T01:25:01Z) - Trained Mamba Emulates Online Gradient Descent in In-Context Linear Regression [90.93281146423378]
Mambaは、Long-Sequence Modelingのための線形複雑性を持つ効率的なTransformer代替品である。
最近の実証研究は、Mambaのテキスト内学習(ICL)がTransformersと競合していることを示している。
本稿では,線形回帰 ICL タスクにおける Mamba のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2025-09-28T09:48:49Z) - Probing In-Context Learning: Impact of Task Complexity and Model Architecture on Generalization and Efficiency [10.942999793311765]
タスクの複雑さとモデルアーキテクチャを体系的に変化させる、巧妙な実験フレームワークを用いて、文脈内学習(ICL)について検討する。
GPT2スタイルのトランスフォーマー、FlashAttention機構を備えたトランスフォーマー、畳み込みハイエナモデル、Mamba状態空間モデルという4つの異なるモデルを評価した。
論文 参考訳(メタデータ) (2025-05-10T00:22:40Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。