論文の概要: Pretrain-Test Task Alignment Governs Generalization in In-Context Learning
- arxiv url: http://arxiv.org/abs/2509.26551v1
- Date: Tue, 30 Sep 2025 17:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.636057
- Title: Pretrain-Test Task Alignment Governs Generalization in In-Context Learning
- Title(参考訳): インコンテキスト学習における事前学習タスクアライメントの一般化
- Authors: Mary I. Letey, Jacob A. Zavatone-Veth, Yue M. Lu, Cengiz Pehlevan,
- Abstract要約: 本研究は,ICLにおける事前学習タスクの構造が一般化をどのように支配するかを考察する。
線形回帰によるICLの可解モデルを用いて、高次元でのICL一般化誤差の正確な式を導出する。
本手法は解法モデルだけでなく非線形変換器においても直接ICL性能を予測する。
- 参考スコア(独自算出の注目度): 39.98824138502169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) is a central capability of Transformer models, but the structures in data that enable its emergence and govern its robustness remain poorly understood. In this work, we study how the structure of pretraining tasks governs generalization in ICL. Using a solvable model for ICL of linear regression by linear attention, we derive an exact expression for ICL generalization error in high dimensions under arbitrary pretraining-testing task covariance mismatch. This leads to a new alignment measure that quantifies how much information about the pretraining task distribution is useful for inference at test time. We show that this measure directly predicts ICL performance not only in the solvable model but also in nonlinear Transformers. Our analysis further reveals a tradeoff between specialization and generalization in ICL: depending on task distribution alignment, increasing pretraining task diversity can either improve or harm test performance. Together, these results identify train-test task alignment as a key determinant of generalization in ICL.
- Abstract(参考訳): In-context Learning(ICL)はTransformerモデルの中枢機能であるが、その出現と頑健さの制御を可能にするデータ構造はいまだに理解されていない。
本研究は,ICLにおける事前学習タスクの構造が一般化をどのように支配するかを考察する。
線形注意による線形回帰のICLに対する可解モデルを用いて、任意の事前学習-テストタスク共分散ミスマッチの下での高次元でのICL一般化誤差の正確な式を導出する。
これにより、事前学習タスクの分布に関する情報がテスト時の推論にどの程度役立つかを定量化する新しいアライメント指標が導かれる。
本手法は解法モデルだけでなく非線形変換器においても直接ICL性能を予測する。
ICLにおける特殊化と一般化のトレードオフがさらに明らかになった:タスク分布のアライメントによって、事前学習タスクの多様性の増大は、テスト性能を向上または損なう可能性がある。
これらの結果は、ICLにおける一般化の鍵となる決定要因として、列車-テストタスクアライメントを同定する。
関連論文リスト
- A Framework for Quantifying How Pre-Training and Context Benefit In-Context Learning [52.07397258423034]
現実的な設定のクラスにおいて,ICLの性能を解析するための新しいフレームワークを提案する。
我々は、ICL性能と文脈長、および事前訓練と問合せタスク分布のKL分散の正確な関係を導出する。
論文 参考訳(メタデータ) (2025-10-26T09:21:29Z) - In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning [51.56484100374058]
本稿では,ICLリスクをベイズギャップとポストリアバリアンスの2つのコンポーネントに分割する基本的リスク分解を導入する。
一様アテンション変換器の場合、このギャップの非漸近上界を導出し、事前学習プロンプトの数への依存を明確にする。
後方変動は本質的なタスクの不確実性を表すモデルに依存しないリスクである。
論文 参考訳(メタデータ) (2025-10-13T03:42:31Z) - Learning Linear Regression with Low-Rank Tasks in-Context [8.347662730632047]
In-context Learning (ICL)は、現代の大規模言語モデルの鍵となる構成要素である。
低ランク回帰タスクで訓練された線形アテンションモデルを分析する。
有限事前学習データの統計的変動は暗黙の正則化を引き起こす。
論文 参考訳(メタデータ) (2025-10-06T07:27:49Z) - How Does the Pretraining Distribution Shape In-Context Learning? Task Selection, Generalization, and Robustness [6.723482324209954]
計算課題における事前学習分布形状 ICL の統計的特性について述べる。
我々は,タスク選択と一般化を統一し,先行結果を拡張・短縮する理論的枠組みを開発する。
次に、課題タスクの事前学習分布によって、ICLの性能がどのように変化するかを実証的に研究する。
論文 参考訳(メタデータ) (2025-10-01T17:52:29Z) - Surprise Calibration for Better In-Context Learning [6.566285172635043]
In-context Learning (ICL) は、大規模言語モデルにおけるタスク適応のための強力なパラダイムとして登場した。
既存のバイアス校正法は、すべての入力に対して固定クラス事前を適用し、動的ICL設定におけるそれらの有効性を制限している。
本稿では,クラス先行の時間的ダイナミクスをキャプチャする新しいメソッド・サプライズ(SC)を提案する。
論文 参考訳(メタデータ) (2025-06-15T10:04:42Z) - Technical Debt in In-Context Learning: Diminishing Efficiency in Long Context [24.905102026459428]
トランスフォーマーは、パラメータを更新せずに簡単に実演を条件付けることで、新しいタスクに適応し、目覚ましいコンテキスト内学習能力を示した。
トランスフォーマーが、原則付き学習アルゴリズムと比較して、いかに文脈内学習を最適に行うかは、いまだに不明である。
論文 参考訳(メタデータ) (2025-02-07T00:26:45Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - Test-Time Training for Semantic Segmentation with Output Contrastive
Loss [12.535720010867538]
ディープラーニングベースのセグメンテーションモデルは、公開ベンチマークで印象的なパフォーマンスを達成したが、目に見えない環境にうまく一般化することは、依然として大きな課題である。
本稿では、適応過程を安定させるために、頑健で一般化された表現を学習する能力で知られるコントラストロス(OCL)を紹介する。
本手法は,テスト領域データに対するドメイン適応法を用いて事前学習したモデルに適用した場合においても優れ,そのレジリエンスと適応性を示す。
論文 参考訳(メタデータ) (2023-11-14T03:13:47Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。