論文の概要: Understanding Generalization and Forgetting in In-Context Continual Learning
- arxiv url: http://arxiv.org/abs/2605.28705v1
- Date: Wed, 27 May 2026 16:31:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.216115
- Title: Understanding Generalization and Forgetting in In-Context Continual Learning
- Title(参考訳): インコンテキスト連続学習における一般化と予測の理解
- Authors: Guangyu Li, Meng Ding, Lijie Hu,
- Abstract要約: コンテキスト内学習により、大規模言語モデルは、プロンプトベースの推論だけで新しいタスクに適応できる。
既存の理論では、ICLをシングルタスク設定で研究しているが、現実世界のプロンプトは、しばしば不均一なタスクのシーケンスを含む。
本稿では,事前学習されたトランスフォーマーが1つのプロンプト内で複数のシーケンシャルタスクをどのように処理するかをモデル化する,コンテキスト内連続学習のための最初の理論的枠組みを提案する。
- 参考スコア(独自算出の注目度): 20.151689821430043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) derives its power from enabling Large Language Models to adapt to new tasks via prompt-based reasoning alone, entirely bypassing the need for parameter updates. Existing theories primarily study ICL in single-task settings, while real-world prompts often contain sequences of heterogeneous tasks, leaving a gap in understanding whether Large Language Models implicitly perform continual learning during inference. To bridge this gap, we propose the first theoretical framework for in-context continual learning, modeling how a pretrained Transformer processes multiple sequential tasks within a single prompt through shared attention mechanisms. Focusing on linear and masked linear self-attention, we derive error expressions for model predictions under sequential task prompts and analyze their generalization and forgetting behavior. Our results reveal that standard attention mechanisms inevitably induce intertask interference by uniformly or causally aggregating historical contexts, leading to systematic bias. We further provide a bias-variance-interference decomposition of prediction error, characterizing when historical in-context information yields positive transfer or provable negative transfer. This analysis exposes fundamental limits of attention-based continual inference and offers theoretical explanations for order sensitivity and performance degradation in long prompts.
- Abstract(参考訳): In-context Learning (ICL) は、大規模言語モデルがプロンプトベースの推論だけで新しいタスクに適応できるようにすることによって、パラメータ更新の必要性を完全に回避することで、そのパワーを生んでいる。
既存の理論は、主にシングルタスク環境でICLを研究するが、現実のプロンプトは、しばしば不均一なタスクのシーケンスを含んでおり、大言語モデルが推論中に暗黙的に連続的な学習を行うかどうかの理解のギャップを残している。
このギャップを埋めるために,事前学習されたトランスフォーマーが1つのプロンプト内で複数のシーケンシャルタスクをどのように処理するかを,共有注意機構を通じてモデル化する,コンテキスト内連続学習のための最初の理論的枠組みを提案する。
線形およびマスク付き自己アテンションに着目し,逐次的タスクプロンプト下でのモデル予測の誤り表現を導出し,それらの一般化と忘れる挙動を解析する。
この結果から,標準的注意機構は歴史的文脈を一様あるいは因果的に集約することで,必然的にインタータスク干渉を誘発し,体系的バイアスをもたらすことが明らかとなった。
さらに、過去の文脈内情報が正の転送や証明可能な負の転送をもたらす場合に特徴付ける予測誤差のバイアス-分散-干渉分解を提供する。
この分析は、注意に基づく連続推論の基本的限界を明らかにし、長いプロンプトにおける順序感度と性能劣化の理論的説明を提供する。
関連論文リスト
- Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning [65.15766304205657]
In-context Learning (ICL) は、大規模なモデルをいくつかの例を使ってタスクに適応させるが、視覚言語モデル(VLM)への拡張は脆弱である。
我々の分析によると、基本的な限界は帰納的ギャップにあり、モデルはしばしば欠陥のある推論から正しい答えを導き出す。
帰納的帰納的プロセスとしてマルチモーダル ICL を再構成する枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-04T09:18:19Z) - A Bayesian Perspective on the Role of Epistemic Uncertainty for Delayed Generalization in In-Context Learning [3.236735486944393]
インコンテキスト学習は、トランスフォーマーが推論時にいくつかの例から新しいタスクに適応できるようにする。
ベイジアンの視点から,タスクの一般化と文法学習について検討し,暗記から一般化への移行が遅れている理由を問う。
論文 参考訳(メタデータ) (2026-04-14T08:25:07Z) - Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought [15.598263332303612]
大規模言語モデル(LLM)は、様々なタスクにまたがる卓越した習熟度を示した。
本研究は,3つの重要な疑問に対処することによって,これらの観測の基礎を掘り下げる。
論文 参考訳(メタデータ) (2026-02-16T10:57:26Z) - On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - Scaling Reasoning Hop Exposes Weaknesses: Demystifying and Improving Hop Generalization in Large Language Models [66.36240676392502]
CoT(Chain-of- Thought)推論は、LLM(Large Language Models)が複雑な問題を解決するための標準パラダイムとなっている。
近年の研究では、ホップ一般化シナリオの推論性能が急落している。
推論過程におけるEPヘッドを動的に識別・非活性化する軽量な介入法である推論の試験時間補正を提案する。
論文 参考訳(メタデータ) (2026-01-29T03:24:32Z) - Learning Linear Regression with Low-Rank Tasks in-Context [8.347662730632047]
In-context Learning (ICL)は、現代の大規模言語モデルの鍵となる構成要素である。
低ランク回帰タスクで訓練された線形アテンションモデルを分析する。
有限事前学習データの統計的変動は暗黙の正則化を引き起こす。
論文 参考訳(メタデータ) (2025-10-06T07:27:49Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning [86.19804569376333]
インストラクションチューニングにおいてゼロショットの一般化は非常に早い段階で起こることを示す。
より基礎的なトレーニングデータアレンジメントフレームワークであるテスト中心型マルチターンアレンジメントを提案する。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。