論文の概要: Local to Global: Learning Dynamics and Effect of Initialization for Transformers
- arxiv url: http://arxiv.org/abs/2406.03072v1
- Date: Wed, 5 Jun 2024 08:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 19:09:43.020631
- Title: Local to Global: Learning Dynamics and Effect of Initialization for Transformers
- Title(参考訳): ローカル・トゥ・グローバル:学習ダイナミクスと変圧器の初期化の効果
- Authors: Ashok Vardhan Makkuva, Marco Bondaschi, Chanakya Ekbote, Adway Girish, Alliot Nagle, Hyeji Kim, Michael Gastpar,
- Abstract要約: 我々は一階マルコフ連鎖と単層変圧器に焦点をあてる。
我々は,次世代の予測損失に基づいてトレーニングしたトランスフォーマーパラメータが,グローバルあるいはローカルのミニマに収束可能であることを証明した。
- 参考スコア(独自算出の注目度): 20.02103237675619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, transformer-based models have revolutionized deep learning, particularly in sequence modeling. To better understand this phenomenon, there is a growing interest in using Markov input processes to study transformers. However, our current understanding in this regard remains limited with many fundamental questions about how transformers learn Markov chains still unanswered. In this paper, we address this by focusing on first-order Markov chains and single-layer transformers, providing a comprehensive characterization of the learning dynamics in this context. Specifically, we prove that transformer parameters trained on next-token prediction loss can either converge to global or local minima, contingent on the initialization and the Markovian data properties, and we characterize the precise conditions under which this occurs. To the best of our knowledge, this is the first result of its kind highlighting the role of initialization. We further demonstrate that our theoretical findings are corroborated by empirical evidence. Based on these insights, we provide guidelines for the initialization of transformer parameters and demonstrate their effectiveness. Finally, we outline several open problems in this arena. Code is available at: \url{https://anonymous.4open.science/r/Local-to-Global-C70B/}.
- Abstract(参考訳): 近年、トランスフォーマーベースのモデルは、特にシーケンスモデリングにおいてディープラーニングに革命をもたらした。
この現象をよりよく理解するために、マルコフ入力プロセスを用いてトランスフォーマーを研究することへの関心が高まっている。
しかしながら、この点に関する我々の現在の理解は、トランスフォーマーがマルコフ連鎖を学習する方法に関する多くの基本的な質問に限られている。
本稿では,一階のマルコフ連鎖と単層変圧器に着目し,この文脈における学習力学の包括的特徴を提供する。
具体的には、次トーケン予測損失に基づいて訓練されたトランスフォーマーパラメータが、大域的または局所的なミニマに収束し、初期化とマルコフ的データ特性に依存することを証明し、それが起こる正確な条件を特徴付ける。
私たちの知る限りでは、これは、初期化の役割を強調するこの種の結果の最初のものです。
さらに、我々の理論的な発見が実証的な証拠によって裏付けられていることを実証する。
これらの知見に基づき、変換器パラメータの初期化のためのガイドラインを提供し、その有効性を実証する。
最後に、この領域におけるいくつかのオープンな問題を概説する。
コードは以下の通りである。 \url{https://anonymous.4open.science/r/Local-to-Global-C70B/}。
関連論文リスト
- Transformers on Markov Data: Constant Depth Suffices [25.83132046480226]
我々は、kth Markovプロセスから引き出されたデータに対するトランスフォーマーの挙動について検討する。
固定深さと1層あたり1ドルヘッドを持つ変圧器は、kth Markovソースから引き出されたシーケンスに対して、低いテスト損失を達成できることがわかった。
論文 参考訳(メタデータ) (2024-07-25T01:07:09Z) - How Transformers Learn Causal Structure with Gradient Descent [49.808194368781095]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - Attention with Markov: A Framework for Principled Analysis of
Transformers via Markov Chains [48.146073732531605]
マルコフ連鎖のレンズによる変圧器の逐次モデリング機能について検討する。
自然言語のマルコフ性に触発され、マルコフの情報源としてデータをモデル化する。
我々は,データ特性とトランスフォーマーアーキテクチャに基づいて,グローバルなミニマと悪いローカルなミニマの存在を示す。
論文 参考訳(メタデータ) (2024-02-06T17:18:59Z) - Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - An Introduction to Transformers [23.915718146956355]
Transformerは、有用なシーケンスやデータポイントのセットを学ぶために使用できるニューラルネットワークコンポーネントである。
本稿では,トランスアーキテクチャの数学的,正確,直感的,クリーンな記述を目指す。
論文 参考訳(メタデータ) (2023-04-20T14:54:19Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。