論文の概要: What Can Transformers Learn In-Context? A Case Study of Simple Function
Classes
- arxiv url: http://arxiv.org/abs/2208.01066v1
- Date: Mon, 1 Aug 2022 18:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 12:50:27.884116
- Title: What Can Transformers Learn In-Context? A Case Study of Simple Function
Classes
- Title(参考訳): トランスフォーマーは文脈内で何を学べるのか?
簡易関数型授業のケーススタディ
- Authors: Shivam Garg, Dimitris Tsipras, Percy Liang, Gregory Valiant
- Abstract要約: インコンテキスト学習(In-context learning)とは、インコンテキストの例からなるプロンプトシーケンスでモデルに条件を付ける能力である。
我々は,標準変換器をスクラッチから訓練して,線形関数の文脈内学習を行うことを示した。
また、タスク固有の学習アルゴリズムに適合または超越したパフォーマンスで、より複雑な関数クラスをコンテキスト内で学習できるようにトランスフォーマーを訓練できることも示している。
- 参考スコア(独自算出の注目度): 91.06939734527953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning refers to the ability of a model to condition on a prompt
sequence consisting of in-context examples (input-output pairs corresponding to
some task) along with a new query input, and generate the corresponding output.
Crucially, in-context learning happens only at inference time without any
parameter updates to the model. While large language models such as GPT-3
exhibit some ability to perform in-context learning, it is unclear what the
relationship is between tasks on which this succeeds and what is present in the
training data. To make progress towards understanding in-context learning, we
consider the well-defined problem of training a model to in-context learn a
function class (e.g., linear functions): that is, given data derived from some
functions in the class, can we train a model to in-context learn "most"
functions from this class? We show empirically that standard Transformers can
be trained from scratch to perform in-context learning of linear functions --
that is, the trained model is able to learn unseen linear functions from
in-context examples with performance comparable to the optimal least squares
estimator. In fact, in-context learning is possible even under two forms of
distribution shift: (i) between the training data of the model and
inference-time prompts, and (ii) between the in-context examples and the query
input during inference. We also show that we can train Transformers to
in-context learn more complex function classes -- namely sparse linear
functions, two-layer neural networks, and decision trees -- with performance
that matches or exceeds task-specific learning algorithms. Our code and models
are available at https://github.com/dtsip/in-context-learning .
- Abstract(参考訳): インコンテキスト学習(in-context learning)とは、モデルがインコンテキストの例(あるタスクに対応する入出力ペア)からなるプロンプトシーケンスで条件付けする能力と、新しいクエリ入力を加えて、対応する出力を生成することである。
重要なことに、コンテキスト内学習はモデルにパラメータを更新することなく、推論時にのみ行われる。
GPT-3のような大規模言語モデルは、文脈内学習を行う能力を持っているが、それが成功するタスクとトレーニングデータに何が存在するのかははっきりしない。
コンテキスト内学習の理解に向けて進むために、モデルのインコンテキスト学習(例えば、線形関数)に関する明確に定義された問題を考える。つまり、クラス内のいくつかの関数から得られたデータから与えられたデータから、このクラスからインコンテキストで「最も」関数を学ぶようにモデルを訓練できるだろうか?
我々は,標準トランスフォーマーをスクラッチからトレーニングして,線形関数の文脈内学習を行うことを実証的に示す。つまり,トレーニングされたモデルは,最適最小二乗推定器に匹敵する性能で,テキスト内例から未知の線形関数を学習することができる。
実際、文脈内学習は2つの形態の分散シフトの下でも可能である。
(i)モデルのトレーニングデータと推論時間プロンプトの関係、
(ii) 推論中のコンテキスト内例とクエリ入力の間。
また、トランスフォーマーをトレーニングして、より複雑な関数クラス、すなわちスパース線形関数、二層ニューラルネットワーク、決定木を学習し、タスク固有の学習アルゴリズムに匹敵する性能を発揮できることも示します。
私たちのコードとモデルはhttps://github.com/dtsip/in-context-learning で利用可能です。
関連論文リスト
- In-context Learning in Presence of Spurious Correlations [8.055478206164105]
本研究では,突発的特徴を含む分類課題に対して,文脈内学習者を訓練する可能性について検討する。
従来の文脈内学習者の訓練手法は、刺激的な特徴に影響を受けやすいことが判明した。
与えられた分類タスクに対して,そのような学習者を訓練するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:26:36Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting [15.69952375347308]
言語モデルには、コンテキスト内学習(ICL)を実行する能力があり、コンテキストに基づいた振る舞いを柔軟に適応させることができる。
実演モデルと玩具モデルの両方を用いて、単純な音声設定における構造的インコンテキストアルゴリズムについて検討する。
モデルが新しい言語に一般化するのを助けるために最近導入された手法である能動的忘れ字法は、構造的コンテキスト内学習ソリューションを採用するようモデルに強制する。
論文 参考訳(メタデータ) (2024-05-28T21:38:20Z) - Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in
Transformer Models [9.340409961107955]
トランスフォーマーモデルには、コンテキスト内学習(ICL)を実行する驚くべき能力がある
本研究は, トランスフォーマーが事前学習データ混合物間の橋渡しを効果的に行う方法について検討する。
以上の結果から,高容量シーケンスモデルの印象的なICL能力は,インダクティブバイアスよりも事前学習データ混合のカバレッジに密接に関係している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-01T21:41:08Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文 参考訳(メタデータ) (2023-06-02T07:21:03Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - From Learning to Meta-Learning: Reduced Training Overhead and Complexity
for Communication Systems [40.427909614453526]
機械学習手法は、データやアクティブな観察に基づいて、一定の学習手順を用いて、与えられたモデルクラスに置かれるように制約されたモデルのパラメータを適応する。
メタトレーニングによる帰納バイアスでは、トレーニングデータと/または時間の複雑さを減らして、マシンラーニングモデルのトレーニングを実行することができる。
本稿では,メタラーニングの高度導入と通信システムへの応用について述べる。
論文 参考訳(メタデータ) (2020-01-05T12:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。