論文の概要: Transformers on Markov Data: Constant Depth Suffices
- arxiv url: http://arxiv.org/abs/2407.17686v1
- Date: Thu, 25 Jul 2024 01:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 15:37:23.601074
- Title: Transformers on Markov Data: Constant Depth Suffices
- Title(参考訳): Markovデータ上のトランスフォーマー: 一定の深さで十分
- Authors: Nived Rajaraman, Marco Bondaschi, Kannan Ramchandran, Michael Gastpar, Ashok Vardhan Makkuva,
- Abstract要約: 我々は、kth Markovプロセスから引き出されたデータに対するトランスフォーマーの挙動について検討する。
固定深さと1層あたり1ドルヘッドを持つ変圧器は、kth Markovソースから引き出されたシーケンスに対して、低いテスト損失を達成できることがわかった。
- 参考スコア(独自算出の注目度): 25.83132046480226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based transformers have been remarkably successful at modeling generative processes across various domains and modalities. In this paper, we study the behavior of transformers on data drawn from \kth Markov processes, where the conditional distribution of the next symbol in a sequence depends on the previous $k$ symbols observed. We observe a surprising phenomenon empirically which contradicts previous findings: when trained for sufficiently long, a transformer with a fixed depth and $1$ head per layer is able to achieve low test loss on sequences drawn from \kth Markov sources, even as $k$ grows. Furthermore, this low test loss is achieved by the transformer's ability to represent and learn the in-context conditional empirical distribution. On the theoretical side, our main result is that a transformer with a single head and three layers can represent the in-context conditional empirical distribution for \kth Markov sources, concurring with our empirical observations. Along the way, we prove that \textit{attention-only} transformers with $O(\log_2(k))$ layers can represent the in-context conditional empirical distribution by composing induction heads to track the previous $k$ symbols in the sequence. These results provide more insight into our current understanding of the mechanisms by which transformers learn to capture context, by understanding their behavior on Markov sources.
- Abstract(参考訳): アテンションベースのトランスフォーマーは、様々な領域やモダリティにわたる生成プロセスをモデル化することに成功した。
本稿では,次のシンボルの列における条件分布が観測された以前の$k$のシンボルに依存するような,<kth Markov>プロセスから引き出されたデータに対する変換器の挙動について検討する。
十分な長さで訓練すると,1層あたり1ドルずつの深さを持つ変圧器は,k$が成長しても,kth Markovソースから引き出されたシーケンスに対して低い試験損失を達成できる。
さらに、この低いテスト損失は、コンテクスト内条件付き経験分布を表現および学習するトランスフォーマーの能力によって達成される。
理論的には、1つの頭部と3つの層を持つ変圧器は、我々の経験的観察と一致して、kth Markov源の文脈内条件付き経験的分布を表現できる。
その過程で、$O(\log_2(k))$レイヤを持つ \textit{attention-only} 変換器は、インジェクションヘッドを構成することで、シーケンス内の以前の$k$シンボルを追跡することで、コンテキスト内の条件付き経験的分布を表現できることを示す。
これらの結果は、マルコフ源の行動を理解することによって、トランスフォーマーが文脈を捉えることを学習するメカニズムの現在の理解について、より深い洞察を与えてくれる。
関連論文リスト
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Local to Global: Learning Dynamics and Effect of Initialization for Transformers [20.02103237675619]
我々は一階マルコフ連鎖と単層変圧器に焦点をあてる。
我々は,次世代の予測損失に基づいてトレーニングしたトランスフォーマーパラメータが,グローバルあるいはローカルのミニマに収束可能であることを証明した。
論文 参考訳(メタデータ) (2024-06-05T08:57:41Z) - Toward a Theory of Tokenization in LLMs [26.516041872337887]
本稿では, 簡単なデータ生成プロセスにおいて, 変圧器の挙動を研究することによって, 理論的観点からトークン化について検討する。
変換器によって学習された最も単純なユニグラムモデルでさえ、$ktextth$-order Markovソースから引き出されたシーケンスの確率を最適にモデル化できることを示す。
論文 参考訳(メタデータ) (2024-04-12T09:01:14Z) - The Evolution of Statistical Induction Heads: In-Context Learning Markov
Chains [28.41876902994335]
In-context Learning (ICL) 機能がどのように出現するかを研究するために,Markov Chain シーケンスモデリングタスクを導入する。
このタスクで訓練されたトランスフォーマーは、正確な次の確率を計算するための統計的誘導ヘッドを形成する。
本研究では, 変圧器層間の相互作用から学習結果が得られたことを示し, より単純なユニグラム解の存在が最終ビッグラム解の形成を遅らせる可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:28:36Z) - Attention with Markov: A Framework for Principled Analysis of
Transformers via Markov Chains [48.146073732531605]
マルコフ連鎖のレンズによる変圧器の逐次モデリング機能について検討する。
自然言語のマルコフ性に触発され、マルコフの情報源としてデータをモデル化する。
我々は,データ特性とトランスフォーマーアーキテクチャに基づいて,グローバルなミニマと悪いローカルなミニマの存在を示す。
論文 参考訳(メタデータ) (2024-02-06T17:18:59Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:48:43Z) - Transformer Feed-Forward Layers Are Key-Value Memories [49.52087581977751]
トランス言語モデルにおけるフィードフォワード層がキーバリューメモリとして動作することを示す。
学習したパターンは人間と解釈可能であり、下層は浅いパターンをキャプチャする傾向にあり、上層はセマンティックなパターンを学ぶ傾向にある。
論文 参考訳(メタデータ) (2020-12-29T19:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。