論文の概要: Benefits of Transformer: In-Context Learning in Linear Regression Tasks
with Unstructured Data
- arxiv url: http://arxiv.org/abs/2402.00743v1
- Date: Thu, 1 Feb 2024 16:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:40:17.054718
- Title: Benefits of Transformer: In-Context Learning in Linear Regression Tasks
with Unstructured Data
- Title(参考訳): 変圧器の利点:非構造化データを用いた線形回帰課題における文脈学習
- Authors: Yue Xing, Xiaofeng Lin, Namjoon Suh, Qifan Song, Guang Cheng
- Abstract要約: コンテクスト内学習を容易にする変圧器の正確なコンポーネントについて検討する。
本稿では,2層のソフトマックス(自己)アテンションを持つトランスフォーマーが,各例に$x_i$のトークンに$y_i$がある場合のプロンプトから学習できることを観察する。
- 参考スコア(独自算出の注目度): 24.1488081067319
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In practice, it is observed that transformer-based models can learn concepts
in context in the inference stage. While existing literature, e.g.,
\citet{zhang2023trained,huang2023context}, provide theoretical explanations on
this in-context learning ability, they assume the input $x_i$ and the output
$y_i$ for each sample are embedded in the same token (i.e., structured data).
However, in reality, they are presented in two tokens (i.e., unstructured data
\cite{wibisono2023role}). In this case, this paper conducts experiments in
linear regression tasks to study the benefits of the architecture of
transformers and provides some corresponding theoretical intuitions to explain
why the transformer can learn from unstructured data. We study the exact
components in a transformer that facilitate the in-context learning. In
particular, we observe that (1) a transformer with two layers of softmax
(self-)attentions with look-ahead attention mask can learn from the prompt if
$y_i$ is in the token next to $x_i$ for each example; (2) positional encoding
can further improve the performance; and (3) multi-head attention with a high
input embedding dimension has a better prediction performance than single-head
attention.
- Abstract(参考訳): 実際、トランスフォーマーベースのモデルは推論の段階で文脈で概念を学習できることが観察されている。
既存の文献、例えば \citet{zhang2023trained,huang2023context} は、この文脈内学習能力に関する理論的説明を提供するが、各サンプルに対する入力$x_i$と出力$y_i$は、同じトークン(すなわち構造化データ)に埋め込まれていると仮定する。
しかし実際には、2つのトークン(非構造化データ \cite{wibisono2023role} )で示される。
本稿では, 変圧器のアーキテクチャの利点を研究するために線形回帰タスクの実験を行い, 変圧器が非構造データから学べる理由を説明するための理論的直観について述べる。
コンテクスト内学習を容易にする変圧器の正確なコンポーネントについて検討する。
特に,(1)2層のソフトマックス(自己)アテンションとルックアヘッドアテンションマスクを有するトランスフォーマは,各例に対して$y_i$が$x_i$ 以下のトークンにある場合,プロンプトから学習できること,(2)ポジショナルエンコーディングによりさらに性能が向上すること,(3)高い入力埋め込み次元を持つマルチヘッドアテンションはシングルヘッドアテンションよりも優れた予測性能を有することが観察される。
関連論文リスト
- Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - From Unstructured Data to In-Context Learning: Exploring What Tasks Can Be Learned and When [19.841163050181194]
トランスフォーマーのような大きな言語モデル(LLM)は、インコンテキスト学習(ICL)機能を示す。
我々は、非構造化データで訓練されたモデルにおいて、ICLを実現するために、重要なシーケンスモデル要件とデータ構造について検討する。
我々は,非構造化データにおける意味的関連語対の共起から,多くのICL機能が出現することを発見した。
In one in logic reasoning task that requires generalization to new, unseen pattern, and another in analogy completion where relevant word pairs appears in fixed training position。
論文 参考訳(メタデータ) (2024-05-31T18:46:06Z) - Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。
ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文 参考訳(メタデータ) (2024-04-23T12:51:37Z) - Parallel Structures in Pre-training Data Yield In-Context Learning [41.27837171531926]
我々は、事前学習データのパターンが文脈内学習(ICL)にどのような寄与するかを検討する。
LMのICL能力は、事前学習データで$textitparallel構造に依存している。
論文 参考訳(メタデータ) (2024-02-19T20:40:48Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。