論文の概要: How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations
- arxiv url: http://arxiv.org/abs/2310.10616v1
- Date: Mon, 16 Oct 2023 17:40:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 12:39:57.111542
- Title: How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations
- Title(参考訳): トランスフォーマーはいかにしてシンプルな関数を超えてコンテキストを学ぶのか?
表現を用いた学習に関する事例研究
- Authors: Tianyu Guo, Wei Hu, Song Mei, Huan Wang, Caiming Xiong, Silvio
Savarese, Yu Bai
- Abstract要約: 本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
- 参考スコア(独自算出の注目度): 98.7450564309923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models based on the transformer architecture have
demonstrated remarkable in-context learning (ICL) capabilities, understandings
of such capabilities are still in an early stage, where existing theory and
mechanistic understanding focus mostly on simple scenarios such as learning
simple function classes. This paper takes initial steps on understanding ICL in
more complex scenarios, by studying learning with representations. Concretely,
we construct synthetic in-context learning problems with a compositional
structure, where the label depends on the input through a possibly complex but
fixed representation function, composed with a linear function that differs in
each instance. By construction, the optimal ICL algorithm first transforms the
inputs by the representation function, and then performs linear ICL on top of
the transformed dataset. We show theoretically the existence of transformers
that approximately implement such algorithms with mild depth and size.
Empirically, we find trained transformers consistently achieve near-optimal ICL
performance in this setting, and exhibit the desired dissection where lower
layers transforms the dataset and upper layers perform linear ICL. Through
extensive probing and a new pasting experiment, we further reveal several
mechanisms within the trained transformers, such as concrete copying behaviors
on both the inputs and the representations, linear ICL capability of the upper
layers alone, and a post-ICL representation selection mechanism in a harder
mixture setting. These observed mechanisms align well with our theory and may
shed light on how transformers perform ICL in more realistic scenarios.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づく大規模言語モデルは、目覚ましいコンテキスト内学習(ICL)能力を示しているが、そのような能力の理解はまだ初期段階にあり、既存の理論と機械的理解は、単純な関数クラスを学習するといった単純なシナリオに主に焦点を当てている。
本稿では,より複雑なシナリオにおいて icl を理解するための最初のステップとして,表現を用いた学習を考察する。
具体的には、合成的文脈学習問題を合成構造で構築し、ラベルは、各インスタンスで異なる線形関数からなる、おそらくは複雑だが固定表現関数を介して入力に依存する。
構築により、最適ICLアルゴリズムはまず表現関数によって入力を変換し、変換されたデータセット上で線形ICLを実行する。
このようなアルゴリズムを軽度な深さと大きさで近似的に実装する変圧器の存在を理論的に示す。
経験的に、トレーニングされたトランスフォーマーは、この設定で常にほぼ最適のICL性能を達成し、下位層がデータセットを変換し、上位層が線形ICLを実行する所望の分離を示す。
広範な探索と新しいペースト実験により,入力と表現の両方の具体的コピー動作,上層のみの線形icl能力,より強固な混合条件下でのポストicl表現選択機構など,トレーニングされたトランスフォーマー内のいくつかのメカニズムを明らかにする。
これらのメカニズムは我々の理論とよく一致しており、より現実的なシナリオにおいてトランスフォーマーがどのようにICLを実行するかに光を当てる可能性がある。
関連論文リスト
- Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - Inducing Systematicity in Transformers by Attending to Structurally
Quantized Embeddings [60.698130703909804]
トランスフォーマーは、複雑なデータセットでトレーニングされた後、構造と実体の新規な構成に一般化する。
本稿では,SQ-Transformerを提案する。
SQ-Transformerは,複数の低複雑さ意味解析および機械翻訳データセット上で,バニラ変換器よりも強い構成一般化を実現することを示す。
論文 参考訳(メタデータ) (2024-02-09T15:53:15Z) - Theoretical Understanding of In-Context Learning in Shallow Transformers with Unstructured Data [21.242708937367865]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて推論段階で概念を学習できる強力なモデルである。
本稿では,トランスアーキテクチャにおける各コンポーネントの役割を考察し,アーキテクチャの成功を説明する理論的理解を提供する。
論文 参考訳(メタデータ) (2024-02-01T16:39:45Z) - Positional Information Matters for Invariant In-Context Learning: A Case
Study of Simple Function Classes [39.08988313527199]
インコンテキストラーニング(In-context Learning, ICL)とは、新しいクエリ入力に対する応答を生成するために、いくつかのインコンテキストデモでモデルに条件を付ける能力である。
LLMの印象的なICL能力にもかかわらず、LSMのICLは入力デモに敏感であり、短い文脈長に限定されている。
論文 参考訳(メタデータ) (2023-11-30T02:26:55Z) - Schema-learning and rebinding as mechanisms of in-context learning and
emergence [10.370506005311091]
In-context Learning (ICL)は、最近のトランスフォーマーベース大規模言語モデル(LLM)において、最も強力で予期せぬ能力の1つである。
我々は、クローン構造因果グラフ(CSCG)を用いた代替シーケンス予測学習法により、同等のICL能力を取得できることを実証した。
論文 参考訳(メタデータ) (2023-06-16T00:29:19Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。