論文の概要: How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations
- arxiv url: http://arxiv.org/abs/2310.10616v1
- Date: Mon, 16 Oct 2023 17:40:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 12:39:57.111542
- Title: How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations
- Title(参考訳): トランスフォーマーはいかにしてシンプルな関数を超えてコンテキストを学ぶのか?
表現を用いた学習に関する事例研究
- Authors: Tianyu Guo, Wei Hu, Song Mei, Huan Wang, Caiming Xiong, Silvio
Savarese, Yu Bai
- Abstract要約: 本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
- 参考スコア(独自算出の注目度): 98.7450564309923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models based on the transformer architecture have
demonstrated remarkable in-context learning (ICL) capabilities, understandings
of such capabilities are still in an early stage, where existing theory and
mechanistic understanding focus mostly on simple scenarios such as learning
simple function classes. This paper takes initial steps on understanding ICL in
more complex scenarios, by studying learning with representations. Concretely,
we construct synthetic in-context learning problems with a compositional
structure, where the label depends on the input through a possibly complex but
fixed representation function, composed with a linear function that differs in
each instance. By construction, the optimal ICL algorithm first transforms the
inputs by the representation function, and then performs linear ICL on top of
the transformed dataset. We show theoretically the existence of transformers
that approximately implement such algorithms with mild depth and size.
Empirically, we find trained transformers consistently achieve near-optimal ICL
performance in this setting, and exhibit the desired dissection where lower
layers transforms the dataset and upper layers perform linear ICL. Through
extensive probing and a new pasting experiment, we further reveal several
mechanisms within the trained transformers, such as concrete copying behaviors
on both the inputs and the representations, linear ICL capability of the upper
layers alone, and a post-ICL representation selection mechanism in a harder
mixture setting. These observed mechanisms align well with our theory and may
shed light on how transformers perform ICL in more realistic scenarios.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づく大規模言語モデルは、目覚ましいコンテキスト内学習(ICL)能力を示しているが、そのような能力の理解はまだ初期段階にあり、既存の理論と機械的理解は、単純な関数クラスを学習するといった単純なシナリオに主に焦点を当てている。
本稿では,より複雑なシナリオにおいて icl を理解するための最初のステップとして,表現を用いた学習を考察する。
具体的には、合成的文脈学習問題を合成構造で構築し、ラベルは、各インスタンスで異なる線形関数からなる、おそらくは複雑だが固定表現関数を介して入力に依存する。
構築により、最適ICLアルゴリズムはまず表現関数によって入力を変換し、変換されたデータセット上で線形ICLを実行する。
このようなアルゴリズムを軽度な深さと大きさで近似的に実装する変圧器の存在を理論的に示す。
経験的に、トレーニングされたトランスフォーマーは、この設定で常にほぼ最適のICL性能を達成し、下位層がデータセットを変換し、上位層が線形ICLを実行する所望の分離を示す。
広範な探索と新しいペースト実験により,入力と表現の両方の具体的コピー動作,上層のみの線形icl能力,より強固な混合条件下でのポストicl表現選択機構など,トレーニングされたトランスフォーマー内のいくつかのメカニズムを明らかにする。
これらのメカニズムは我々の理論とよく一致しており、より現実的なシナリオにおいてトランスフォーマーがどのようにICLを実行するかに光を当てる可能性がある。
関連論文リスト
- Training Nonlinear Transformers for Efficient In-Context Learning: A
Theoretical Learning and Generalization Analysis [88.52724320516342]
トランスフォーマーベースの大規模言語モデルは、いくつかの入力例でクエリを拡大するだけで、トレーニング済みのモデルが微調整なしで新しいタスクを処理できる、印象的なコンテキスト内学習機能を示した。
本稿では,トランスフォーマーの非線型自己注意と非線形活性化に起因するトレーニング問題の最適理論的解析を行う。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - Inducing Systematicity in Transformers by Attending to Structurally
Quantized Embeddings [60.698130703909804]
トランスフォーマーは、複雑なデータセットでトレーニングされた後、構造と実体の新規な構成に一般化する。
本稿では,SQ-Transformerを提案する。
SQ-Transformerは,複数の低複雑さ意味解析および機械翻訳データセット上で,バニラ変換器よりも強い構成一般化を実現することを示す。
論文 参考訳(メタデータ) (2024-02-09T15:53:15Z) - Positional Information Matters for Invariant In-Context Learning: A Case
Study of Simple Function Classes [39.08988313527199]
インコンテキストラーニング(In-context Learning, ICL)とは、新しいクエリ入力に対する応答を生成するために、いくつかのインコンテキストデモでモデルに条件を付ける能力である。
LLMの印象的なICL能力にもかかわらず、LSMのICLは入力デモに敏感であり、短い文脈長に限定されている。
論文 参考訳(メタデータ) (2023-11-30T02:26:55Z) - Schema-learning and rebinding as mechanisms of in-context learning and
emergence [10.370506005311091]
In-context Learning (ICL)は、最近のトランスフォーマーベース大規模言語モデル(LLM)において、最も強力で予期せぬ能力の1つである。
我々は、クローン構造因果グラフ(CSCG)を用いた代替シーケンス予測学習法により、同等のICL能力を取得できることを実証した。
論文 参考訳(メタデータ) (2023-06-16T00:29:19Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Iterative Forward Tuning Boosts In-context Learning in Language Models [46.848235335267375]
大規模言語モデル (LLM) は、ICL(In-context Learning) の能力を示す。
本稿では、トランスフォーマーの注意と勾配降下に基づく最適化の二重形式を利用して、LCMにおけるICL向上のための2段階のフレームワークを提案する。
本手法は,精度と効率の両面で,標準ICLよりもかなり優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Learning a Fourier Transform for Linear Relative Positional Encodings in
Transformers [60.58073666177477]
我々はLearner-Transformers(Learner-Transformers)と呼ばれる線形変換器の新しいクラスを提案する。
学習者変換器は、幅広い相対的位置符号化機構(RPE)を組み込む
また、画像分類や3次元分子モデリングといった他のデータモダリティやタスクについても、sを徹底的に検証した。
論文 参考訳(メタデータ) (2023-02-03T18:57:17Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。