Fugu-MT 論文翻訳(概要): How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations

論文の概要: How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations

arxiv url: http://arxiv.org/abs/2310.10616v1
Date: Mon, 16 Oct 2023 17:40:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 12:39:57.111542
Title: How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations
Title（参考訳）: トランスフォーマーはいかにしてシンプルな関数を超えてコンテキストを学ぶのか? 表現を用いた学習に関する事例研究
Authors: Tianyu Guo, Wei Hu, Song Mei, Huan Wang, Caiming Xiong, Silvio Savarese, Yu Bai
Abstract要約: 本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
参考スコア（独自算出の注目度）: 98.7450564309923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models based on the transformer architecture have demonstrated remarkable in-context learning (ICL) capabilities, understandings of such capabilities are still in an early stage, where existing theory and mechanistic understanding focus mostly on simple scenarios such as learning simple function classes. This paper takes initial steps on understanding ICL in more complex scenarios, by studying learning with representations. Concretely, we construct synthetic in-context learning problems with a compositional structure, where the label depends on the input through a possibly complex but fixed representation function, composed with a linear function that differs in each instance. By construction, the optimal ICL algorithm first transforms the inputs by the representation function, and then performs linear ICL on top of the transformed dataset. We show theoretically the existence of transformers that approximately implement such algorithms with mild depth and size. Empirically, we find trained transformers consistently achieve near-optimal ICL performance in this setting, and exhibit the desired dissection where lower layers transforms the dataset and upper layers perform linear ICL. Through extensive probing and a new pasting experiment, we further reveal several mechanisms within the trained transformers, such as concrete copying behaviors on both the inputs and the representations, linear ICL capability of the upper layers alone, and a post-ICL representation selection mechanism in a harder mixture setting. These observed mechanisms align well with our theory and may shed light on how transformers perform ICL in more realistic scenarios.
Abstract（参考訳）: トランスフォーマーアーキテクチャに基づく大規模言語モデルは、目覚ましいコンテキスト内学習(ICL)能力を示しているが、そのような能力の理解はまだ初期段階にあり、既存の理論と機械的理解は、単純な関数クラスを学習するといった単純なシナリオに主に焦点を当てている。本稿では,より複雑なシナリオにおいて icl を理解するための最初のステップとして,表現を用いた学習を考察する。具体的には、合成的文脈学習問題を合成構造で構築し、ラベルは、各インスタンスで異なる線形関数からなる、おそらくは複雑だが固定表現関数を介して入力に依存する。構築により、最適ICLアルゴリズムはまず表現関数によって入力を変換し、変換されたデータセット上で線形ICLを実行する。このようなアルゴリズムを軽度な深さと大きさで近似的に実装する変圧器の存在を理論的に示す。経験的に、トレーニングされたトランスフォーマーは、この設定で常にほぼ最適のICL性能を達成し、下位層がデータセットを変換し、上位層が線形ICLを実行する所望の分離を示す。広範な探索と新しいペースト実験により,入力と表現の両方の具体的コピー動作,上層のみの線形icl能力,より強固な混合条件下でのポストicl表現選択機構など,トレーニングされたトランスフォーマー内のいくつかのメカニズムを明らかにする。これらのメカニズムは我々の理論とよく一致しており、より現実的なシナリオにおいてトランスフォーマーがどのようにICLを実行するかに光を当てる可能性がある。

関連論文リスト

Provable In-Context Learning of Nonlinear Regression with Transformers [58.018629320233174]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文参考訳（メタデータ） (2025-07-28T00:09:28Z)
Can Transformers Learn Full Bayesian Inference in Context? [13.479322264788367]
コンテクストでよく使われる統計モデルに対して、変換器はベイズ推定をフルに行うことができることを示す。本稿では,従来のネットワークと連続正規化フローのアイデアを基盤とした汎用フレームワークを提案する。実世界のデータセットに対する実験により、我々のICLアプローチは、最先端MCMCや変分推論手法と品質が類似した後部サンプルを生成することを示した。
論文参考訳（メタデータ） (2025-01-28T10:04:53Z)
Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers [18.077009146950473]
自己回帰変換器は文脈内学習(ICL)を通して適応学習を示す変換器の表現において内部抽象をどう形成し、どのように利用するかを研究することにより、ICLを説明するための符号化・復号機構を提案する。私たちの経験的洞察は、その表現を通じて、大きな言語モデルの成功と失敗モードの理解を深めました。
論文参考訳（メタデータ） (2024-12-16T19:00:18Z)
Re-examining learning linear functions in context [1.8843687952462742]
In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
論文参考訳（メタデータ） (2024-11-18T10:58:46Z)
Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文参考訳（メタデータ） (2024-11-04T15:54:32Z)
Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文参考訳（メタデータ） (2024-09-09T18:10:26Z)
How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文参考訳（メタデータ） (2024-02-23T21:07:20Z)
Inducing Systematicity in Transformers by Attending to Structurally Quantized Embeddings [60.698130703909804]
トランスフォーマーは、複雑なデータセットでトレーニングされた後、構造と実体の新規な構成に一般化する。本稿では,SQ-Transformerを提案する。 SQ-Transformerは,複数の低複雑さ意味解析および機械翻訳データセット上で,バニラ変換器よりも強い構成一般化を実現することを示す。
論文参考訳（メタデータ） (2024-02-09T15:53:15Z)
Theoretical Understanding of In-Context Learning in Shallow Transformers with Unstructured Data [21.242708937367865]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて推論段階で概念を学習できる強力なモデルである。本稿では,トランスアーキテクチャにおける各コンポーネントの役割を考察し,アーキテクチャの成功を説明する理論的理解を提供する。
論文参考訳（メタデータ） (2024-02-01T16:39:45Z)
Positional Information Matters for Invariant In-Context Learning: A Case Study of Simple Function Classes [39.08988313527199]
インコンテキストラーニング(In-context Learning, ICL)とは、新しいクエリ入力に対する応答を生成するために、いくつかのインコンテキストデモでモデルに条件を付ける能力である。 LLMの印象的なICL能力にもかかわらず、LSMのICLは入力デモに敏感であり、短い文脈長に限定されている。
論文参考訳（メタデータ） (2023-11-30T02:26:55Z)
Schema-learning and rebinding as mechanisms of in-context learning and emergence [10.370506005311091]
In-context Learning (ICL)は、最近のトランスフォーマーベース大規模言語モデル(LLM)において、最も強力で予期せぬ能力の1つである。我々は、クローン構造因果グラフ(CSCG)を用いた代替シーケンス予測学習法により、同等のICL能力を取得できることを実証した。
論文参考訳（メタデータ） (2023-06-16T00:29:19Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。