Fugu-MT 論文翻訳(概要): Pretraining task diversity and the emergence of non-Bayesian in-context learning for regression

論文の概要: Pretraining task diversity and the emergence of non-Bayesian in-context learning for regression

arxiv url: http://arxiv.org/abs/2306.15063v2
Date: Wed, 8 Nov 2023 18:12:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 19:38:55.363324
Title: Pretraining task diversity and the emergence of non-Bayesian in-context learning for regression
Title（参考訳）: 回帰のための事前学習課題の多様性と非ベイズ的文脈学習の出現
Authors: Allan Ravent\'os, Mansheej Paul, Feng Chen, Surya Ganguli
Abstract要約: 事前訓練されたトランスフォーマーは、文脈内学習(ICL)の顕著な能力を示す ICLは、事前トレーニング中に見られるタスクとは大きく異なる、基本的に$textitnew$タスクを解決できますか?
参考スコア（独自算出の注目度）: 31.950737940558984
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pretrained transformers exhibit the remarkable ability of in-context learning (ICL): they can learn tasks from just a few examples provided in the prompt without updating any weights. This raises a foundational question: can ICL solve fundamentally $\textit{new}$ tasks that are very different from those seen during pretraining? To probe this question, we examine ICL's performance on linear regression while varying the diversity of tasks in the pretraining dataset. We empirically demonstrate a $\textit{task diversity threshold}$ for the emergence of ICL. Below this threshold, the pretrained transformer cannot solve unseen regression tasks, instead behaving like a Bayesian estimator with the $\textit{non-diverse pretraining task distribution}$ as the prior. Beyond this threshold, the transformer significantly outperforms this estimator; its behavior aligns with that of ridge regression, corresponding to a Gaussian prior over $\textit{all tasks}$, including those not seen during pretraining. Thus, when pretrained on data with task diversity greater than the threshold, transformers $\textit{can}$ optimally solve fundamentally new tasks in-context. Importantly, this capability hinges on it deviating from the Bayes optimal estimator with the pretraining distribution as the prior. This study also explores the effect of regularization, model capacity and task structure and underscores, in a concrete example, the critical role of task diversity, alongside data and model scale, in the emergence of ICL. Code is available at https://github.com/mansheej/icl-task-diversity.
Abstract（参考訳）: 事前訓練されたトランスフォーマーは、インコンテキスト学習(ICL: In-context Learning)の顕著な能力を示す。 ICLは基本的に$\textit{new}$タスクを解決できますか? そこで本研究では,プリトレーニングデータセットにおけるタスクの多様性を変えつつ,線形回帰におけるiclの性能について検討する。 ICLの出現に対する$\textit{task diversity threshold}$を実証的に示す。このしきい値以下では、事前訓練されたトランスフォーマーは、未認識の回帰タスクを解くことができず、代わりに$\textit{non-diverse pretraining task distribution}$ をプリエントとしてベイズ推定器のように振る舞う。このしきい値を超えて、トランスフォーマーは、この推定器を大きく上回る;その振舞いはリッジ回帰のそれと一致し、プリトレーニング中に見えないものを含む$\textit{all tasks}$以前のガウス式に対応する。したがって、タスクの多様性がしきい値よりも大きいデータで事前トレーニングすると、transformers $\textit{can}$はコンテキスト内の基本的な新しいタスクを最適に解決する。重要なのは、この機能がベイズ最適推定器から逸脱し、事前訓練分布を前とすることである。本研究はまた、iclの出現において、正規化、モデル容量、タスク構造およびアンダースコアが、データおよびモデルスケールと並行して、タスク多様性の重要な役割を具体例で検討する。コードはhttps://github.com/mansheej/icl-task-diversityで入手できる。

関連論文リスト

Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
When can in-context learning generalize out of task distribution? [10.962094053749095]
In-context Learning (ICL) は、モデルが数例しか見ていないタスクに一般化できる事前訓練されたトランスフォーマーの能力である。我々はICLの事前学習に必要となる条件を実験的に検討し,その展開と分布の一般化について検討した。タスクの多様性が増大するにつれて、トランスフォーマーは、事前学習タスク分布内でのみICLを示す特殊な解から、タスク空間全体への分布から一般化する解へと移行する。
論文参考訳（メタデータ） (2025-06-05T20:30:50Z)
LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。 LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文参考訳（メタデータ） (2024-10-22T16:26:05Z)
Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文参考訳（メタデータ） (2024-08-22T08:02:10Z)
Does learning the right latent variables necessarily improve in-context learning? [13.828665019247444]
Transformersのような大規模な自己回帰モデルは、新しい重みを学習することなく、コンテキスト内学習(ICL)によってタスクを解決できる。本稿では,タスクラテントを明示的に推論する効果について検討する。タスク関連潜伏変数への偏りは、分配性能を向上させるには至らない。
論文参考訳（メタデータ） (2024-05-29T15:06:10Z)
Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification [7.869708570399577]
条件付き期待値 $mathbbE[Y|X]$ と条件付き分散 Var$(Y|X)$ の両方を予測する双目的予測タスクを考える。理論的には、トレーニングされたトランスフォーマーがベイズ最適付近に到達し、トレーニング分布の情報の利用が示唆される。
論文参考訳（メタデータ） (2024-05-24T00:08:55Z)
How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文参考訳（メタデータ） (2023-10-12T15:01:43Z)
Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文参考訳（メタデータ） (2023-07-13T16:39:08Z)
Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文参考訳（メタデータ） (2023-06-26T17:58:50Z)
Task-Robust Pre-Training for Worst-Case Downstream Adaptation [62.05108162160981]
プレトレーニングは下流のタスクに移行することで大きな成功を収めた。本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
論文参考訳（メタデータ） (2023-06-21T07:43:23Z)
Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文参考訳（メタデータ） (2022-09-07T20:10:12Z)
Task-Customized Self-Supervised Pre-training with Scalable Dynamic Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文参考訳（メタデータ） (2022-05-26T10:49:43Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。