論文の概要: Benefits of Transformer: In-Context Learning in Linear Regression Tasks
with Unstructured Data
- arxiv url: http://arxiv.org/abs/2402.00743v1
- Date: Thu, 1 Feb 2024 16:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:40:17.054718
- Title: Benefits of Transformer: In-Context Learning in Linear Regression Tasks
with Unstructured Data
- Title(参考訳): 変圧器の利点:非構造化データを用いた線形回帰課題における文脈学習
- Authors: Yue Xing, Xiaofeng Lin, Namjoon Suh, Qifan Song, Guang Cheng
- Abstract要約: コンテクスト内学習を容易にする変圧器の正確なコンポーネントについて検討する。
本稿では,2層のソフトマックス(自己)アテンションを持つトランスフォーマーが,各例に$x_i$のトークンに$y_i$がある場合のプロンプトから学習できることを観察する。
- 参考スコア(独自算出の注目度): 24.1488081067319
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In practice, it is observed that transformer-based models can learn concepts
in context in the inference stage. While existing literature, e.g.,
\citet{zhang2023trained,huang2023context}, provide theoretical explanations on
this in-context learning ability, they assume the input $x_i$ and the output
$y_i$ for each sample are embedded in the same token (i.e., structured data).
However, in reality, they are presented in two tokens (i.e., unstructured data
\cite{wibisono2023role}). In this case, this paper conducts experiments in
linear regression tasks to study the benefits of the architecture of
transformers and provides some corresponding theoretical intuitions to explain
why the transformer can learn from unstructured data. We study the exact
components in a transformer that facilitate the in-context learning. In
particular, we observe that (1) a transformer with two layers of softmax
(self-)attentions with look-ahead attention mask can learn from the prompt if
$y_i$ is in the token next to $x_i$ for each example; (2) positional encoding
can further improve the performance; and (3) multi-head attention with a high
input embedding dimension has a better prediction performance than single-head
attention.
- Abstract(参考訳): 実際、トランスフォーマーベースのモデルは推論の段階で文脈で概念を学習できることが観察されている。
既存の文献、例えば \citet{zhang2023trained,huang2023context} は、この文脈内学習能力に関する理論的説明を提供するが、各サンプルに対する入力$x_i$と出力$y_i$は、同じトークン(すなわち構造化データ)に埋め込まれていると仮定する。
しかし実際には、2つのトークン(非構造化データ \cite{wibisono2023role} )で示される。
本稿では, 変圧器のアーキテクチャの利点を研究するために線形回帰タスクの実験を行い, 変圧器が非構造データから学べる理由を説明するための理論的直観について述べる。
コンテクスト内学習を容易にする変圧器の正確なコンポーネントについて検討する。
特に,(1)2層のソフトマックス(自己)アテンションとルックアヘッドアテンションマスクを有するトランスフォーマは,各例に対して$y_i$が$x_i$ 以下のトークンにある場合,プロンプトから学習できること,(2)ポジショナルエンコーディングによりさらに性能が向上すること,(3)高い入力埋め込み次元を持つマルチヘッドアテンションはシングルヘッドアテンションよりも優れた予測性能を有することが観察される。
関連論文リスト
- How In-Context Learning Emerges from Training on Unstructured Data: On the Role of Co-Occurrence, Positional Information, and Noise Structures [19.841163050181194]
トランスフォーマーのような大きな言語モデル(LLM)は、インコンテキスト学習(ICL)機能を備えている。
構造化されていないデータに対する教師なしトレーニングからICLがどのように現れるかを検討する。
我々は、ICLを未知のデータに一般化するための位置情報とノイズ構造の必要性を確立する。
論文 参考訳(メタデータ) (2024-05-31T18:46:06Z) - Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。
ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文 参考訳(メタデータ) (2024-04-23T12:51:37Z) - Parallel Structures in Pre-training Data Yield In-Context Learning [41.27837171531926]
我々は、事前学習データのパターンが文脈内学習(ICL)にどのような寄与するかを検討する。
LMのICL能力は、事前学習データで$textitparallel構造に依存している。
論文 参考訳(メタデータ) (2024-02-19T20:40:48Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Schema-learning and rebinding as mechanisms of in-context learning and
emergence [10.370506005311091]
In-context Learning (ICL)は、最近のトランスフォーマーベース大規模言語モデル(LLM)において、最も強力で予期せぬ能力の1つである。
我々は、クローン構造因果グラフ(CSCG)を用いた代替シーケンス予測学習法により、同等のICL能力を取得できることを実証した。
論文 参考訳(メタデータ) (2023-06-16T00:29:19Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。