論文の概要: When can in-context learning generalize out of task distribution?
- arxiv url: http://arxiv.org/abs/2506.05574v2
- Date: Mon, 18 Aug 2025 16:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.045641
- Title: When can in-context learning generalize out of task distribution?
- Title(参考訳): コンテキスト内学習はいつタスク分布から一般化できるのか?
- Authors: Chase Goddard, Lindsay M. Smith, Vudtiwat Ngampruetikorn, David J. Schwab,
- Abstract要約: In-context Learning (ICL) は、モデルが数例しか見ていないタスクに一般化できる事前訓練されたトランスフォーマーの能力である。
我々はICLの事前学習に必要となる条件を実験的に検討し,その展開と分布の一般化について検討した。
タスクの多様性が増大するにつれて、トランスフォーマーは、事前学習タスク分布内でのみICLを示す特殊な解から、タスク空間全体への分布から一般化する解へと移行する。
- 参考スコア(独自算出の注目度): 10.962094053749095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) is a remarkable capability of pretrained transformers that allows models to generalize to unseen tasks after seeing only a few examples. We investigate empirically the conditions necessary on the pretraining distribution for ICL to emerge and generalize \emph{out-of-distribution}. Previous work has focused on the number of distinct tasks necessary in the pretraining dataset. Here, we use a different notion of task diversity to study the emergence of ICL in transformers trained on linear functions. We find that as task diversity increases, transformers undergo a transition from a specialized solution, which exhibits ICL only within the pretraining task distribution, to a solution which generalizes out of distribution to the entire task space. We also investigate the nature of the solutions learned by the transformer on both sides of the transition, and observe similar transitions in nonlinear regression problems. We construct a phase diagram to characterize how our concept of task diversity interacts with the number of pretraining tasks. In addition, we explore how factors such as the depth of the model and the dimensionality of the regression problem influence the transition.
- Abstract(参考訳): In-context Learning (ICL) は、事前訓練されたトランスフォーマーの顕著な能力であり、モデルがいくつかの例を見た後、目に見えないタスクを一般化することを可能にする。
我々は、ICLの事前学習分布に必要な条件を実験的に検討し、 \emph{out-of-distribution} を一般化する。
以前の作業では、事前トレーニングデータセットに必要な個別のタスクの数に重点を置いていた。
ここでは、線形関数で訓練された変換器におけるICLの出現を研究するために、タスク多様性の異なる概念を用いる。
タスクの多様性が増大するにつれて、トランスフォーマーは、事前学習タスク分布内でのみICLを示す特殊なソリューションから、タスク空間全体の分布から一般化するソリューションへと移行する。
また、遷移の両側で変換器が学習した解の性質を考察し、非線形回帰問題における同様の遷移を観察する。
我々は,タスク多様性の概念が事前学習タスクの数とどのように相互作用するかを特徴付けるフェーズ図を構築した。
さらに,モデルの深さや回帰問題の次元性といった要因が遷移にどのように影響するかを考察する。
関連論文リスト
- When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。
本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。
ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文 参考訳(メタデータ) (2025-04-15T08:04:39Z) - Differential learning kinetics govern the transition from memorization to generalization during in-context learning [0.5555497750998242]
トランスフォーマーはインコンテキスト学習(ICL: In-context Learning)を示す。
最近の研究は、モデルが十分に多様なタスクセットで訓練されたときにICLが出現することを示している。
記憶・一般化するサブ回路は,主に独立していると考えられる。
論文 参考訳(メタデータ) (2024-11-27T22:12:29Z) - In-Context Learning of Linear Systems: Generalization Theory and Applications to Operator Learning [10.333724466273233]
本稿では,線形変圧器アーキテクチャを用いて,コンテキスト内で線形系を解くための理論的保証について検討する。
ドメイン内一般化のために、トレーニングや推論に使用されるサンプルのタスク数とサイズで一般化誤差を束縛するニューラルネットワークスケーリング法則を提供する。
領域外一般化では、タスク分布シフトによるトレーニングされたトランスフォーマーの挙動が、トレーニング中に見られるタスクの分布に大きく依存していることが分かる。
論文 参考訳(メタデータ) (2024-09-18T19:59:50Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Does learning the right latent variables necessarily improve in-context learning? [13.828665019247444]
Transformersのような大規模な自己回帰モデルは、新しい重みを学習することなく、コンテキスト内学習(ICL)によってタスクを解決できる。
本稿では,タスクラテントを明示的に推論する効果について検討する。
タスク関連潜伏変数への偏りは、分配性能を向上させるには至らない。
論文 参考訳(メタデータ) (2024-05-29T15:06:10Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Pretraining task diversity and the emergence of non-Bayesian in-context
learning for regression [31.950737940558984]
事前訓練されたトランスフォーマーは、文脈内学習(ICL)の顕著な能力を示す
ICLは、事前トレーニング中に見られるタスクとは大きく異なる、基本的に$textitnew$タスクを解決できますか?
論文 参考訳(メタデータ) (2023-06-26T21:05:20Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Precise High-Dimensional Asymptotics for Quantifying Heterogeneous Transfers [66.66228496844191]
あるタスクを別のタスクからサンプルで学習する問題は、伝達学習(TL)の中心である
本稿では、ソースタスクからのデータサンプルとターゲットタスクを組み合わせれば、ターゲットタスクのみでのシングルタスク学習よりも優れたパフォーマンスを得られるのか、という根本的な疑問を考察する。
論文 参考訳(メタデータ) (2020-10-22T14:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。