論文の概要: Pretraining task diversity and the emergence of non-Bayesian in-context
learning for regression
- arxiv url: http://arxiv.org/abs/2306.15063v2
- Date: Wed, 8 Nov 2023 18:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 19:38:55.363324
- Title: Pretraining task diversity and the emergence of non-Bayesian in-context
learning for regression
- Title(参考訳): 回帰のための事前学習課題の多様性と非ベイズ的文脈学習の出現
- Authors: Allan Ravent\'os, Mansheej Paul, Feng Chen, Surya Ganguli
- Abstract要約: 事前訓練されたトランスフォーマーは、文脈内学習(ICL)の顕著な能力を示す
ICLは、事前トレーニング中に見られるタスクとは大きく異なる、基本的に$textitnew$タスクを解決できますか?
- 参考スコア(独自算出の注目度): 31.950737940558984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained transformers exhibit the remarkable ability of in-context learning
(ICL): they can learn tasks from just a few examples provided in the prompt
without updating any weights. This raises a foundational question: can ICL
solve fundamentally $\textit{new}$ tasks that are very different from those
seen during pretraining? To probe this question, we examine ICL's performance
on linear regression while varying the diversity of tasks in the pretraining
dataset. We empirically demonstrate a $\textit{task diversity threshold}$ for
the emergence of ICL. Below this threshold, the pretrained transformer cannot
solve unseen regression tasks, instead behaving like a Bayesian estimator with
the $\textit{non-diverse pretraining task distribution}$ as the prior. Beyond
this threshold, the transformer significantly outperforms this estimator; its
behavior aligns with that of ridge regression, corresponding to a Gaussian
prior over $\textit{all tasks}$, including those not seen during pretraining.
Thus, when pretrained on data with task diversity greater than the threshold,
transformers $\textit{can}$ optimally solve fundamentally new tasks in-context.
Importantly, this capability hinges on it deviating from the Bayes optimal
estimator with the pretraining distribution as the prior. This study also
explores the effect of regularization, model capacity and task structure and
underscores, in a concrete example, the critical role of task diversity,
alongside data and model scale, in the emergence of ICL. Code is available at
https://github.com/mansheej/icl-task-diversity.
- Abstract(参考訳): 事前訓練されたトランスフォーマーは、インコンテキスト学習(ICL: In-context Learning)の顕著な能力を示す。
ICLは基本的に$\textit{new}$タスクを解決できますか?
そこで本研究では,プリトレーニングデータセットにおけるタスクの多様性を変えつつ,線形回帰におけるiclの性能について検討する。
ICLの出現に対する$\textit{task diversity threshold}$を実証的に示す。
このしきい値以下では、事前訓練されたトランスフォーマーは、未認識の回帰タスクを解くことができず、代わりに$\textit{non-diverse pretraining task distribution}$ をプリエントとしてベイズ推定器のように振る舞う。
このしきい値を超えて、トランスフォーマーは、この推定器を大きく上回る;その振舞いはリッジ回帰のそれと一致し、プリトレーニング中に見えないものを含む$\textit{all tasks}$以前のガウス式に対応する。
したがって、タスクの多様性がしきい値よりも大きいデータで事前トレーニングすると、transformers $\textit{can}$はコンテキスト内の基本的な新しいタスクを最適に解決する。
重要なのは、この機能がベイズ最適推定器から逸脱し、事前訓練分布を前とすることである。
本研究はまた、iclの出現において、正規化、モデル容量、タスク構造およびアンダースコアが、データおよびモデルスケールと並行して、タスク多様性の重要な役割を具体例で検討する。
コードはhttps://github.com/mansheej/icl-task-diversityで入手できる。
関連論文リスト
- Does learning the right latent variables necessarily improve in-context learning? [13.828665019247444]
Transformersのような大規模な自己回帰モデルは、新しい重みを学習することなく、コンテキスト内学習(ICL)によってタスクを解決できる。
本稿では,タスクラテントを明示的に推論する効果について検討する。
タスク関連潜伏変数への偏りは、分配性能を向上させるには至らない。
論文 参考訳(メタデータ) (2024-05-29T15:06:10Z) - On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。
データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文 参考訳(メタデータ) (2024-05-27T05:41:06Z) - Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification [7.869708570399577]
条件付き期待値 $mathbbE[Y|X]$ と条件付き分散 Var$(Y|X)$ の両方を予測する双目的予測タスクを考える。
理論的には、トレーニングされたトランスフォーマーがベイズ最適付近に到達し、トレーニング分布の情報の利用が示唆される。
論文 参考訳(メタデータ) (2024-05-24T00:08:55Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Task-Robust Pre-Training for Worst-Case Downstream Adaptation [62.05108162160981]
プレトレーニングは下流のタスクに移行することで大きな成功を収めた。
本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
論文 参考訳(メタデータ) (2023-06-21T07:43:23Z) - Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。
我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文 参考訳(メタデータ) (2022-09-07T20:10:12Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。