論文の概要: How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations
- arxiv url: http://arxiv.org/abs/2310.10616v1
- Date: Mon, 16 Oct 2023 17:40:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 12:39:57.111542
- Title: How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations
- Title(参考訳): トランスフォーマーはいかにしてシンプルな関数を超えてコンテキストを学ぶのか?
表現を用いた学習に関する事例研究
- Authors: Tianyu Guo, Wei Hu, Song Mei, Huan Wang, Caiming Xiong, Silvio
Savarese, Yu Bai
- Abstract要約: 本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
- 参考スコア(独自算出の注目度): 98.7450564309923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models based on the transformer architecture have
demonstrated remarkable in-context learning (ICL) capabilities, understandings
of such capabilities are still in an early stage, where existing theory and
mechanistic understanding focus mostly on simple scenarios such as learning
simple function classes. This paper takes initial steps on understanding ICL in
more complex scenarios, by studying learning with representations. Concretely,
we construct synthetic in-context learning problems with a compositional
structure, where the label depends on the input through a possibly complex but
fixed representation function, composed with a linear function that differs in
each instance. By construction, the optimal ICL algorithm first transforms the
inputs by the representation function, and then performs linear ICL on top of
the transformed dataset. We show theoretically the existence of transformers
that approximately implement such algorithms with mild depth and size.
Empirically, we find trained transformers consistently achieve near-optimal ICL
performance in this setting, and exhibit the desired dissection where lower
layers transforms the dataset and upper layers perform linear ICL. Through
extensive probing and a new pasting experiment, we further reveal several
mechanisms within the trained transformers, such as concrete copying behaviors
on both the inputs and the representations, linear ICL capability of the upper
layers alone, and a post-ICL representation selection mechanism in a harder
mixture setting. These observed mechanisms align well with our theory and may
shed light on how transformers perform ICL in more realistic scenarios.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づく大規模言語モデルは、目覚ましいコンテキスト内学習(ICL)能力を示しているが、そのような能力の理解はまだ初期段階にあり、既存の理論と機械的理解は、単純な関数クラスを学習するといった単純なシナリオに主に焦点を当てている。
本稿では,より複雑なシナリオにおいて icl を理解するための最初のステップとして,表現を用いた学習を考察する。
具体的には、合成的文脈学習問題を合成構造で構築し、ラベルは、各インスタンスで異なる線形関数からなる、おそらくは複雑だが固定表現関数を介して入力に依存する。
構築により、最適ICLアルゴリズムはまず表現関数によって入力を変換し、変換されたデータセット上で線形ICLを実行する。
このようなアルゴリズムを軽度な深さと大きさで近似的に実装する変圧器の存在を理論的に示す。
経験的に、トレーニングされたトランスフォーマーは、この設定で常にほぼ最適のICL性能を達成し、下位層がデータセットを変換し、上位層が線形ICLを実行する所望の分離を示す。
広範な探索と新しいペースト実験により,入力と表現の両方の具体的コピー動作,上層のみの線形icl能力,より強固な混合条件下でのポストicl表現選択機構など,トレーニングされたトランスフォーマー内のいくつかのメカニズムを明らかにする。
これらのメカニズムは我々の理論とよく一致しており、より現実的なシナリオにおいてトランスフォーマーがどのようにICLを実行するかに光を当てる可能性がある。
関連論文リスト
- Can Transformers Learn Full Bayesian Inference in Context? [13.479322264788367]
コンテクストでよく使われる統計モデルに対して、変換器はベイズ推定をフルに行うことができることを示す。
本稿では,従来のネットワークと連続正規化フローのアイデアを基盤とした汎用フレームワークを提案する。
実世界のデータセットに対する実験により、我々のICLアプローチは、最先端MCMCや変分推論手法と品質が類似した後部サンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-01-28T10:04:53Z) - Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers [18.077009146950473]
自己回帰変換器は文脈内学習(ICL)を通して適応学習を示す
変換器の表現において内部抽象をどう形成し、どのように利用するかを研究することにより、ICLを説明するための符号化・復号機構を提案する。
私たちの経験的洞察は、その表現を通じて、大きな言語モデルの成功と失敗モードの理解を深めました。
論文 参考訳(メタデータ) (2024-12-16T19:00:18Z) - Re-examining learning linear functions in context [1.8843687952462742]
In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。
合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。
本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
論文 参考訳(メタデータ) (2024-11-18T10:58:46Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - Inducing Systematicity in Transformers by Attending to Structurally
Quantized Embeddings [60.698130703909804]
トランスフォーマーは、複雑なデータセットでトレーニングされた後、構造と実体の新規な構成に一般化する。
本稿では,SQ-Transformerを提案する。
SQ-Transformerは,複数の低複雑さ意味解析および機械翻訳データセット上で,バニラ変換器よりも強い構成一般化を実現することを示す。
論文 参考訳(メタデータ) (2024-02-09T15:53:15Z) - Positional Information Matters for Invariant In-Context Learning: A Case
Study of Simple Function Classes [39.08988313527199]
インコンテキストラーニング(In-context Learning, ICL)とは、新しいクエリ入力に対する応答を生成するために、いくつかのインコンテキストデモでモデルに条件を付ける能力である。
LLMの印象的なICL能力にもかかわらず、LSMのICLは入力デモに敏感であり、短い文脈長に限定されている。
論文 参考訳(メタデータ) (2023-11-30T02:26:55Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。