論文の概要: Learning to Adapt: In-Context Learning Beyond Stationarity
- arxiv url: http://arxiv.org/abs/2604.10946v1
- Date: Mon, 13 Apr 2026 03:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.291959
- Title: Learning to Adapt: In-Context Learning Beyond Stationarity
- Title(参考訳): 適応する学習: 定常性を超えたコンテキスト内学習
- Authors: Zhen Qin, Jiachen Jiang, Zhihui Zhu,
- Abstract要約: トランスフォーマーモデルは、幅広い科学的・工学的な領域に根ざしている。
彼らの成功の根底にある重要な能力は、文脈内学習(ICL)である。
近年、この現象のメカニズムの解明が試みられている。
- 参考スコア(独自算出の注目度): 23.324726233034614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have become foundational across a wide range of scientific and engineering domains due to their strong empirical performance. A key capability underlying their success is in-context learning (ICL): when presented with a short prompt from an unseen task, transformers can perform per-token and next-token predictions without any parameter updates. Recent theoretical efforts have begun to uncover the mechanisms behind this phenomenon, particularly in supervised regression settings. However, these analyses predominantly assume stationary task distributions, which overlook a broad class of real-world scenarios where the target function varies over time. In this work, we bridge this gap by providing a theoretical analysis of ICL under non-stationary regression problems. We study how the gated linear attention (GLA) mechanism adapts to evolving input-output relationships and rigorously characterize its advantages over standard linear attention in this dynamic setting. To model non-stationarity, we adopt a first-order autoregressive process and show that GLA achieves lower training and testing errors by adaptively modulating the influence of past inputs -- effectively implementing a learnable recency bias. Our theoretical findings are further supported by empirical results, which validate the benefits of gating mechanisms in non-stationary ICL tasks.
- Abstract(参考訳): トランスフォーマーモデルは、その強力な経験的性能のために、幅広い科学的・工学的な領域に根ざしている。
彼らの成功の根底にある重要な機能は、コンテキスト内学習(ICL: In-context Learning)である。
最近の理論的研究は、特に監督された回帰設定において、この現象の背後にあるメカニズムを明らかにし始めている。
しかし、これらの分析は主に定常的なタスク分布を仮定し、ターゲット関数が時間とともに変化する現実世界のシナリオの幅広いクラスを見渡す。
本研究では,非定常回帰問題の下でのICLの理論解析により,このギャップを埋める。
本研究では, ゲート線形アテンション(GLA)機構が入力-アウトプット関係の進化にどのように適応するかを考察し, この動的環境における標準線形アテンションよりもその利点を巧みに特徴づける。
非定常性をモデル化するために、1次自己回帰プロセスを採用し、GLAが過去の入力の影響を適応的に調節することで、学習可能な回帰バイアスを効果的に実装することで、トレーニングとテストの誤差を低くすることを示す。
本研究は,非定常 ICL タスクにおけるゲーティング機構の利点を検証した経験的結果により,理論的知見をさらに裏付けるものである。
関連論文リスト
- Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Abstain Mask Retain Core: Time Series Prediction by Adaptive Masking Loss with Representation Consistency [4.047219770183742]
時系列予測はエネルギー管理や金融市場といった重要な領域において重要な役割を担っている。
本研究は, 履歴データを適切に切り詰めることによって予測精度を向上させるという, 直感に反する現象を明らかにする。
本稿では,適応的マスキング・ロス(Adaptive Masking Loss)と表現整合性(Representation Consistency)を提案する。
論文 参考訳(メタデータ) (2025-10-22T19:23:53Z) - Learning Linear Regression with Low-Rank Tasks in-Context [8.347662730632047]
In-context Learning (ICL)は、現代の大規模言語モデルの鍵となる構成要素である。
低ランク回帰タスクで訓練された線形アテンションモデルを分析する。
有限事前学習データの統計的変動は暗黙の正則化を引き起こす。
論文 参考訳(メタデータ) (2025-10-06T07:27:49Z) - Provable In-Context Learning of Nonlinear Regression with Transformers [66.99048542127768]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングのダイナミクスを積極的に探求しており、その多くは比較的単純なタスクに重点を置いている。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - Mitigating Distribution Shift in Model-based Offline RL via Shifts-aware Reward Learning [36.01269673940484]
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
我々の理論的および実証的研究は、これらの要因がどのように価値推定と政策最適化を歪めているかを明らかにする。
我々は、バニラ報酬を改良し、価値学習を洗練させ、政策訓練を促進する統一確率的推論フレームワークを通じて、新しいシフトアウェア報酬を導出する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - Boosted Control Functions: Distribution generalization and invariance in confounded models [10.503777692702952]
非線形で非同定可能な構造関数が存在する場合でも分布の一般化を可能にする不変性という強い概念を導入する。
フレキシブルな機械学習手法を用いて,ブースト制御関数(BCF)を推定する制御Twicingアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。