論文の概要: Fine-Tuning Without Forgetting In-Context Learning: A Theoretical Analysis of Linear Attention Models
- arxiv url: http://arxiv.org/abs/2602.23197v1
- Date: Thu, 26 Feb 2026 16:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.787534
- Title: Fine-Tuning Without Forgetting In-Context Learning: A Theoretical Analysis of Linear Attention Models
- Title(参考訳): 文脈学習を忘れずに微調整する:線形注意モデルの理論的検討
- Authors: Chungpa Lee, Jy-yong Sohn, Kangwook Lee,
- Abstract要約: トランスフォーマーベースの大規模言語モデルは、インコンテキスト学習を示し、デモによる数ショットプロンプトを通じて下流タスクへの適応を可能にする。
ファインチューニングは、コンテキスト内学習を劣化させ、ファインチューニング中に見えないタスクにおいて、ファインチューニングされたモデルのパフォーマンスを制限する。
注意パラメータの微調整は文脈内学習を損なうが,値行列の更新制限は文脈内学習を保ちながらゼロショット性能を向上させる。
- 参考スコア(独自算出の注目度): 14.311604912146322
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformer-based large language models exhibit in-context learning, enabling adaptation to downstream tasks via few-shot prompting with demonstrations. In practice, such models are often fine-tuned to improve zero-shot performance on downstream tasks, allowing them to solve tasks without examples and thereby reducing inference costs. However, fine-tuning can degrade in-context learning, limiting the performance of fine-tuned models on tasks not seen during fine-tuning. Using linear attention models, we provide a theoretical analysis that characterizes how fine-tuning objectives modify attention parameters and identifies conditions under which this leads to degraded few-shot performance. We show that fine-tuning all attention parameters can harm in-context learning, whereas restricting updates to the value matrix improves zero-shot performance while preserving in-context learning. We further show that incorporating an auxiliary few-shot loss enhances in-context learning primarily on the target task, at the expense of degraded in-context learning ability on tasks not seen during fine-tuning. We empirically validate our theoretical results.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデルは、インコンテキスト学習を示し、デモによる数ショットプロンプトを通じて下流タスクへの適応を可能にする。
実際には、そのようなモデルはダウンストリームタスクのゼロショット性能を改善するために微調整され、例のないタスクを解決し、推論コストを削減できる。
しかし、微調整は文脈内学習を劣化させる可能性があり、微調整中に見えないタスクにおいて微調整されたモデルの性能が制限される。
線形アテンションモデルを用いて、微調整対象がアテンションパラメータをどう修正するかを特徴付ける理論解析を行い、その条件が劣化した数発のパフォーマンスに繋がることを示す。
注意パラメータの微調整は文脈内学習を損なうが,値行列の更新制限は文脈内学習を保ちながらゼロショット性能を向上させる。
さらに、補助的な数発の損失を取り入れることで、微調整中に見えないタスクに対して、テキスト内学習能力の低下を犠牲にして、主に目標タスクにおけるコンテキスト内学習が促進されることを示す。
理論的結果を実証的に検証する。
関連論文リスト
- Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。
適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。
我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文 参考訳(メタデータ) (2025-04-09T17:59:42Z) - Large (Vision) Language Models are Unsupervised In-Context Learners [14.930827851769276]
完全教師なし適応のための共同推論フレームワークを導入する。
ゼロショット推論とは異なり、関節推論は与えられたタスクの全ての入力に対して同時に予測を行う。
我々の実験は、標準のゼロショットアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-04-03T07:33:02Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Information Guided Regularization for Fine-tuning Language Models [11.831883526217942]
我々は、よりスムーズな転写学習のために、より外科的な正規化アプローチが存在する必要があると論じる。
モデル正規化の改善と下流一般化のための新しい手法を考案する。
論文 参考訳(メタデータ) (2024-06-20T05:18:37Z) - Controlling Forgetting with Test-Time Data in Continual Learning [15.455400390299593]
継続学習研究は、新しい知識が得られたときの過去の情報の破滅的な忘れを克服する技術を提供する。
テストタイムデータには,従来の学習タスクのモデルメモリをリフレッシュするために,自己管理的な方法で活用できる優れた情報がある,と我々は主張する。
論文 参考訳(メタデータ) (2024-06-19T15:56:21Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。