論文の概要: Pretrain-Test Task Alignment Governs Generalization in In-Context Learning
- arxiv url: http://arxiv.org/abs/2509.26551v1
- Date: Tue, 30 Sep 2025 17:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.636057
- Title: Pretrain-Test Task Alignment Governs Generalization in In-Context Learning
- Title(参考訳): インコンテキスト学習における事前学習タスクアライメントの一般化
- Authors: Mary I. Letey, Jacob A. Zavatone-Veth, Yue M. Lu, Cengiz Pehlevan,
- Abstract要約: 本研究は,ICLにおける事前学習タスクの構造が一般化をどのように支配するかを考察する。
線形回帰によるICLの可解モデルを用いて、高次元でのICL一般化誤差の正確な式を導出する。
本手法は解法モデルだけでなく非線形変換器においても直接ICL性能を予測する。
- 参考スコア(独自算出の注目度): 39.98824138502169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) is a central capability of Transformer models, but the structures in data that enable its emergence and govern its robustness remain poorly understood. In this work, we study how the structure of pretraining tasks governs generalization in ICL. Using a solvable model for ICL of linear regression by linear attention, we derive an exact expression for ICL generalization error in high dimensions under arbitrary pretraining-testing task covariance mismatch. This leads to a new alignment measure that quantifies how much information about the pretraining task distribution is useful for inference at test time. We show that this measure directly predicts ICL performance not only in the solvable model but also in nonlinear Transformers. Our analysis further reveals a tradeoff between specialization and generalization in ICL: depending on task distribution alignment, increasing pretraining task diversity can either improve or harm test performance. Together, these results identify train-test task alignment as a key determinant of generalization in ICL.
- Abstract(参考訳): In-context Learning(ICL)はTransformerモデルの中枢機能であるが、その出現と頑健さの制御を可能にするデータ構造はいまだに理解されていない。
本研究は,ICLにおける事前学習タスクの構造が一般化をどのように支配するかを考察する。
線形注意による線形回帰のICLに対する可解モデルを用いて、任意の事前学習-テストタスク共分散ミスマッチの下での高次元でのICL一般化誤差の正確な式を導出する。
これにより、事前学習タスクの分布に関する情報がテスト時の推論にどの程度役立つかを定量化する新しいアライメント指標が導かれる。
本手法は解法モデルだけでなく非線形変換器においても直接ICL性能を予測する。
ICLにおける特殊化と一般化のトレードオフがさらに明らかになった:タスク分布のアライメントによって、事前学習タスクの多様性の増大は、テスト性能を向上または損なう可能性がある。
これらの結果は、ICLにおける一般化の鍵となる決定要因として、列車-テストタスクアライメントを同定する。
関連論文リスト
- Surprise Calibration for Better In-Context Learning [6.566285172635043]
In-context Learning (ICL) は、大規模言語モデルにおけるタスク適応のための強力なパラダイムとして登場した。
既存のバイアス校正法は、すべての入力に対して固定クラス事前を適用し、動的ICL設定におけるそれらの有効性を制限している。
本稿では,クラス先行の時間的ダイナミクスをキャプチャする新しいメソッド・サプライズ(SC)を提案する。
論文 参考訳(メタデータ) (2025-06-15T10:04:42Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - Test-Time Training for Semantic Segmentation with Output Contrastive
Loss [12.535720010867538]
ディープラーニングベースのセグメンテーションモデルは、公開ベンチマークで印象的なパフォーマンスを達成したが、目に見えない環境にうまく一般化することは、依然として大きな課題である。
本稿では、適応過程を安定させるために、頑健で一般化された表現を学習する能力で知られるコントラストロス(OCL)を紹介する。
本手法は,テスト領域データに対するドメイン適応法を用いて事前学習したモデルに適用した場合においても優れ,そのレジリエンスと適応性を示す。
論文 参考訳(メタデータ) (2023-11-14T03:13:47Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。