論文の概要: How do Transformers perform In-Context Autoregressive Learning?
- arxiv url: http://arxiv.org/abs/2402.05787v1
- Date: Thu, 8 Feb 2024 16:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 14:30:30.385505
- Title: How do Transformers perform In-Context Autoregressive Learning?
- Title(参考訳): トランスフォーマーは文脈内自己回帰学習をどのように実行するのか?
- Authors: Michael E. Sander, Raja Giryes, Taiji Suzuki, Mathieu Blondel, Gabriel
Peyr\'e
- Abstract要約: 簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
- 参考スコア(独自算出の注目度): 65.92202218348696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have achieved state-of-the-art performance in language modeling
tasks. However, the reasons behind their tremendous success are still unclear.
In this paper, towards a better understanding, we train a Transformer model on
a simple next token prediction task, where sequences are generated as a
first-order autoregressive process $s_{t+1} = W s_t$. We show how a trained
Transformer predicts the next token by first learning $W$ in-context, then
applying a prediction mapping. We call the resulting procedure in-context
autoregressive learning. More precisely, focusing on commuting orthogonal
matrices $W$, we first show that a trained one-layer linear Transformer
implements one step of gradient descent for the minimization of an inner
objective function, when considering augmented tokens. When the tokens are not
augmented, we characterize the global minima of a one-layer diagonal linear
multi-head Transformer. Importantly, we exhibit orthogonality between heads and
show that positional encoding captures trigonometric relations in the data. On
the experimental side, we consider the general case of non-commuting orthogonal
matrices and generalize our theoretical findings.
- Abstract(参考訳): トランスフォーマーは言語モデリングタスクで最先端のパフォーマンスを達成した。
しかし、その大成功の背景にはいまだ不明な点がある。
本稿では,より理解を深めるために,1次自己回帰プロセス $s_{t+1} = w s_t$ としてシーケンスを生成する単純なnextトークン予測タスクでトランスフォーマーモデルをトレーニングする。
トレーニングされたトランスフォーマーが次のトークンを予測する方法を,まず$w$ in-contextを学習し,次に予測マッピングを適用することで示す。
結果の手順を文脈内自己回帰学習と呼ぶ。
より正確には、直交行列の可換化に焦点をあてて、訓練された一層線形トランスフォーマーが、拡張トークンを考える際に、内部目的関数の最小化のために勾配降下の一段階を実装することを最初に示す。
トークンが拡張されない場合、一層対角形線形多ヘッドトランスのグローバルミニマを特徴付ける。
重要なことは、頭部間の直交性を示し、位置符号化がデータの三角関係を捉えることを示す。
実験面では,非可換直交行列の一般事例を考察し,理論的な知見を一般化する。
関連論文リスト
- How Well Can Transformers Emulate In-context Newton's Method? [46.08521978754298]
線形回帰以外の高次最適化手法をトランスフォーマーで行うことができるかどうかを考察する。
2層のみの行列逆転に対するニュートンの反復の単一ステップの実装において、線形注意のみの変換器が可能であることを実証する。
論文 参考訳(メタデータ) (2024-03-05T18:20:10Z) - Benefits of Transformer: In-Context Learning in Linear Regression Tasks
with Unstructured Data [24.1488081067319]
コンテクスト内学習を容易にする変圧器の正確なコンポーネントについて検討する。
本稿では,2層のソフトマックス(自己)アテンションを持つトランスフォーマーが,各例に$x_i$のトークンに$y_i$がある場合のプロンプトから学習できることを観察する。
論文 参考訳(メタデータ) (2024-02-01T16:39:45Z) - Transformers Learn Higher-Order Optimization Methods for In-Context
Learning: A Study with Linear Models [26.15757039132891]
In-context Learning を実現するために,Transformer が高次最適化手法の実装を学習していることを示す。
In-context on ill-conditioned data, is a setting where Gradient Descent struggles but Iterative Newton successfully。
論文 参考訳(メタデータ) (2023-10-26T01:08:47Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Transformers learn to implement preconditioned gradient descent for
in-context learning [41.74394657009037]
いくつかの最近の研究は、変圧器が勾配降下のようなアルゴリズムを実装できることを実証している。
トランスフォーマーは、ランダムな問題インスタンスをトレーニングすることで、そのようなアルゴリズムの実装を学べますか?
注意層が$L$の変圧器では,事前条件付き勾配勾配の反復として$L$を具現化する訓練対象の臨界点が証明される。
論文 参考訳(メタデータ) (2023-06-01T02:35:57Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z) - Non-Autoregressive Machine Translation with Disentangled Context
Transformer [70.95181466892795]
最先端のニューラルネットワーク翻訳モデルは、左から右への翻訳を生成し、各ステップは以前に生成されたトークンに条件付けされる。
本研究では,異なるコンテキストのトークンを同時に生成するDisentangled Context (DisCo) 変換器を提案する。
本モデルでは,非自己回帰型機械翻訳技術と比較して性能が向上する一方,デコーディング時間の平均は大幅に減少する。
論文 参考訳(メタデータ) (2020-01-15T05:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。