論文の概要: When can in-context learning generalize out of task distribution?
- arxiv url: http://arxiv.org/abs/2506.05574v1
- Date: Thu, 05 Jun 2025 20:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.22778
- Title: When can in-context learning generalize out of task distribution?
- Title(参考訳): コンテキスト内学習はいつタスク分布から一般化できるのか?
- Authors: Chase Goddard, Lindsay M. Smith, Vudtiwat Ngampruetikorn, David J. Schwab,
- Abstract要約: In-context Learning (ICL) は、モデルが数例しか見ていないタスクに一般化できる事前訓練されたトランスフォーマーの能力である。
我々はICLの事前学習に必要となる条件を実験的に検討し,その展開と分布の一般化について検討した。
タスクの多様性が増大するにつれて、トランスフォーマーは、事前学習タスク分布内でのみICLを示す特殊な解から、タスク空間全体への分布から一般化する解へと移行する。
- 参考スコア(独自算出の注目度): 10.962094053749095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) is a remarkable capability of pretrained transformers that allows models to generalize to unseen tasks after seeing only a few examples. We investigate empirically the conditions necessary on the pretraining distribution for ICL to emerge and generalize \emph{out-of-distribution}. Previous work has focused on the number of distinct tasks necessary in the pretraining dataset. Here, we use a different notion of task diversity to study the emergence of ICL in transformers trained on linear functions. We find that as task diversity increases, transformers undergo a transition from a specialized solution, which exhibits ICL only within the pretraining task distribution, to a solution which generalizes out of distribution to the entire task space. We also investigate the nature of the solutions learned by the transformer on both sides of the transition, and observe similar transitions in nonlinear regression problems. We construct a phase diagram to characterize how our concept of task diversity interacts with the number of pretraining tasks. In addition, we explore how factors such as the depth of the model and the dimensionality of the regression problem influence the transition.
- Abstract(参考訳): In-context Learning (ICL) は、事前訓練されたトランスフォーマーの顕著な能力であり、モデルがいくつかの例を見た後、目に見えないタスクを一般化することを可能にする。
我々は、ICLの事前学習分布に必要な条件を実験的に検討し、 \emph{out-of-distribution} を一般化する。
以前の作業では、事前トレーニングデータセットに必要な個別のタスクの数に重点を置いていた。
ここでは、線形関数で訓練された変換器におけるICLの出現を研究するために、タスク多様性の異なる概念を用いる。
タスクの多様性が増大するにつれて、トランスフォーマーは、事前学習タスク分布内でのみICLを示す特殊なソリューションから、タスク空間全体の分布から一般化するソリューションへと移行する。
また、遷移の両側で変換器が学習した解の性質を考察し、非線形回帰問題における同様の遷移を観察する。
我々は,タスク多様性の概念が事前学習タスクの数とどのように相互作用するかを特徴付けるフェーズ図を構築した。
さらに,モデルの深さや回帰問題の次元性といった要因が遷移にどのように影響するかを考察する。
関連論文リスト
- In-Context Learning of Linear Systems: Generalization Theory and Applications to Operator Learning [10.333724466273233]
本稿では,線形変圧器アーキテクチャを用いて,コンテキスト内で線形系を解くための理論的保証について検討する。
ドメイン内一般化のために、トレーニングや推論に使用されるサンプルのタスク数とサイズで一般化誤差を束縛するニューラルネットワークスケーリング法則を提供する。
領域外一般化では、タスク分布シフトによるトレーニングされたトランスフォーマーの挙動が、トレーニング中に見られるタスクの分布に大きく依存していることが分かる。
論文 参考訳(メタデータ) (2024-09-18T19:59:50Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Does learning the right latent variables necessarily improve in-context learning? [13.828665019247444]
Transformersのような大規模な自己回帰モデルは、新しい重みを学習することなく、コンテキスト内学習(ICL)によってタスクを解決できる。
本稿では,タスクラテントを明示的に推論する効果について検討する。
タスク関連潜伏変数への偏りは、分配性能を向上させるには至らない。
論文 参考訳(メタデータ) (2024-05-29T15:06:10Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - Pretraining task diversity and the emergence of non-Bayesian in-context
learning for regression [31.950737940558984]
事前訓練されたトランスフォーマーは、文脈内学習(ICL)の顕著な能力を示す
ICLは、事前トレーニング中に見られるタスクとは大きく異なる、基本的に$textitnew$タスクを解決できますか?
論文 参考訳(メタデータ) (2023-06-26T21:05:20Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Precise High-Dimensional Asymptotics for Quantifying Heterogeneous Transfers [66.66228496844191]
あるタスクを別のタスクからサンプルで学習する問題は、伝達学習(TL)の中心である
本稿では、ソースタスクからのデータサンプルとターゲットタスクを組み合わせれば、ターゲットタスクのみでのシングルタスク学習よりも優れたパフォーマンスを得られるのか、という根本的な疑問を考察する。
論文 参考訳(メタデータ) (2020-10-22T14:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。