論文の概要: Understanding In-Context Learning in Transformers and LLMs by Learning
to Learn Discrete Functions
- arxiv url: http://arxiv.org/abs/2310.03016v1
- Date: Wed, 4 Oct 2023 17:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 13:18:41.841496
- Title: Understanding In-Context Learning in Transformers and LLMs by Learning
to Learn Discrete Functions
- Title(参考訳): 離散関数の学習による変圧器とLLMの文脈内学習の理解
- Authors: Satwik Bhattamishra, Arkil Patel, Phil Blunsom, Varun Kanade
- Abstract要約: 本論文では,トランスフォーマーが一つのタスクを解くために2つの異なるアルゴリズムを実装することを学習できることを示す。
また,既存のLarge Language Models (LLMs) は,予測タスクにおいて最寄りのベースラインと競合することを示す。
- 参考スコア(独自算出の注目度): 32.59746882017483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to understand the in-context learning phenomenon, recent works have
adopted a stylized experimental framework and demonstrated that Transformers
can learn gradient-based learning algorithms for various classes of real-valued
functions. However, the limitations of Transformers in implementing learning
algorithms, and their ability to learn other forms of algorithms are not well
understood. Additionally, the degree to which these capabilities are confined
to attention-based models is unclear. Furthermore, it remains to be seen
whether the insights derived from these stylized settings can be extrapolated
to pretrained Large Language Models (LLMs). In this work, we take a step
towards answering these questions by demonstrating the following: (a) On a
test-bed with a variety of Boolean function classes, we find that Transformers
can nearly match the optimal learning algorithm for 'simpler' tasks, while
their performance deteriorates on more 'complex' tasks. Additionally, we find
that certain attention-free models perform (almost) identically to Transformers
on a range of tasks. (b) When provided a teaching sequence, i.e. a set of
examples that uniquely identifies a function in a class, we show that
Transformers learn more sample-efficiently. Interestingly, our results show
that Transformers can learn to implement two distinct algorithms to solve a
single task, and can adaptively select the more sample-efficient algorithm
depending on the sequence of in-context examples. (c) Lastly, we show that
extant LLMs, e.g. LLaMA-2, GPT-4, can compete with nearest-neighbor baselines
on prediction tasks that are guaranteed to not be in their training set.
- Abstract(参考訳): 文脈内学習現象を理解するため,近年の研究では,多種多様な実数値関数に対して,変換器が勾配に基づく学習アルゴリズムを学習できることを実証した。
しかし、学習アルゴリズムの実装におけるトランスフォーマーの限界や、他の種類のアルゴリズムを学習する能力はよく分かっていない。
さらに、これらの能力が注意に基づくモデルに制限される程度は明らかでない。
さらに、これらのスタイル化された設定から導出された洞察が、事前訓練されたLarge Language Models (LLMs) に外挿できるかどうかも不明である。
本研究では,これらの質問に答える上で,次のようなステップを踏み出します。
(a) 様々なブール関数クラスを持つテストベッド上では、トランスフォーマーは'単純'なタスクに最適な学習アルゴリズムにほぼマッチするが、より'複雑'なタスクでは性能が低下する。
さらに、ある注意のないモデルは、様々なタスクにおいてトランスフォーマーと(ほぼ)同じ動作をすることがわかった。
b) 授業シーケンス,すなわちクラス内の関数を一意に識別する一連の例を提供することで,トランスフォーマーがより標本効率のよい学習を行うことを示す。
興味深いことに,本研究の結果は,トランスフォーマーが1つのタスクを解くために2つの異なるアルゴリズムを実装することを学習し,コンテキスト内サンプルのシーケンスに応じて,より効率的なアルゴリズムを適応的に選択できることを示唆している。
(c) 最後に, LLaMA-2, GPT-4 などの既存の LLM は, トレーニングセットに存在しないことが保証されている予測タスクにおいて, 最寄りのベースラインと競合できることを示す。
関連論文リスト
- One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Limits of Transformer Language Models on Learning to Compose Algorithms [77.2443883991608]
我々は,LLaMAモデルのトレーニングと,複数の個別サブタスクの合成学習を必要とする4つのタスクにおけるGPT-4とGeminiの促進について検討した。
その結果,現在最先端のTransformer言語モデルにおける構成学習は,非常に非効率なサンプルであることが示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:23:29Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。