Fugu-MT 論文翻訳(概要): Local to Global: Learning Dynamics and Effect of Initialization for Transformers

論文の概要: Local to Global: Learning Dynamics and Effect of Initialization for Transformers

arxiv url: http://arxiv.org/abs/2406.03072v1
Date: Wed, 5 Jun 2024 08:57:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 19:09:43.020631
Title: Local to Global: Learning Dynamics and Effect of Initialization for Transformers
Title（参考訳）: ローカル・トゥ・グローバル:学習ダイナミクスと変圧器の初期化の効果
Authors: Ashok Vardhan Makkuva, Marco Bondaschi, Chanakya Ekbote, Adway Girish, Alliot Nagle, Hyeji Kim, Michael Gastpar,
Abstract要約: 我々は一階マルコフ連鎖と単層変圧器に焦点をあてる。我々は,次世代の予測損失に基づいてトレーニングしたトランスフォーマーパラメータが,グローバルあるいはローカルのミニマに収束可能であることを証明した。
参考スコア（独自算出の注目度）: 20.02103237675619
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, transformer-based models have revolutionized deep learning, particularly in sequence modeling. To better understand this phenomenon, there is a growing interest in using Markov input processes to study transformers. However, our current understanding in this regard remains limited with many fundamental questions about how transformers learn Markov chains still unanswered. In this paper, we address this by focusing on first-order Markov chains and single-layer transformers, providing a comprehensive characterization of the learning dynamics in this context. Specifically, we prove that transformer parameters trained on next-token prediction loss can either converge to global or local minima, contingent on the initialization and the Markovian data properties, and we characterize the precise conditions under which this occurs. To the best of our knowledge, this is the first result of its kind highlighting the role of initialization. We further demonstrate that our theoretical findings are corroborated by empirical evidence. Based on these insights, we provide guidelines for the initialization of transformer parameters and demonstrate their effectiveness. Finally, we outline several open problems in this arena. Code is available at: \url{https://anonymous.4open.science/r/Local-to-Global-C70B/}.
Abstract（参考訳）: 近年、トランスフォーマーベースのモデルは、特にシーケンスモデリングにおいてディープラーニングに革命をもたらした。この現象をよりよく理解するために、マルコフ入力プロセスを用いてトランスフォーマーを研究することへの関心が高まっている。しかしながら、この点に関する我々の現在の理解は、トランスフォーマーがマルコフ連鎖を学習する方法に関する多くの基本的な質問に限られている。本稿では,一階のマルコフ連鎖と単層変圧器に着目し,この文脈における学習力学の包括的特徴を提供する。具体的には、次トーケン予測損失に基づいて訓練されたトランスフォーマーパラメータが、大域的または局所的なミニマに収束し、初期化とマルコフ的データ特性に依存することを証明し、それが起こる正確な条件を特徴付ける。私たちの知る限りでは、これは、初期化の役割を強調するこの種の結果の最初のものです。さらに、我々の理論的な発見が実証的な証拠によって裏付けられていることを実証する。これらの知見に基づき、変換器パラメータの初期化のためのガイドラインを提供し、その有効性を実証する。最後に、この領域におけるいくつかのオープンな問題を概説する。コードは以下の通りである。 \url{https://anonymous.4open.science/r/Local-to-Global-C70B/}。

関連論文リスト

Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器のパラメータ化知識を用いた一階論理推論能力について検討する。変圧器の1次推論能力は、その1次論理的推論を実行する能力を通じて評価される。変換器における一階述語論理包含を一般化する能力を高めるため,より洗練された論理型アーキテクチャTEGAを提案する。
論文参考訳（メタデータ） (2025-01-01T07:05:32Z)
On-Chip Learning via Transformer In-Context Learning [0.9353041869660692]
自己アテンションメカニズムでは、各ステップでメインメモリから事前トークンプロジェクションを転送する必要がある。オンチップの塑性プロセッサを用いて自己注意を計算したニューロモルフィックデコーダのみのトランスモデルを提案する。
論文参考訳（メタデータ） (2024-10-11T10:54:09Z)
Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Transformers [3.686808512438363]
本稿では,無作為マトリクスの観点から,テキスト分割のみの変圧器における信号伝搬について検討する。本研究では,注目行列の2つの最大の特異値間のテクストスペクトルギャップが,ランク崩壊の原因となることを示す。そこで本研究では,スペクトルギャップを除去することにより,広帯域におけるランク崩壊を解消する,新しい,シンプルかつ実用的な解法を提案する。
論文参考訳（メタデータ） (2024-10-10T10:34:18Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
Transformers on Markov Data: Constant Depth Suffices [25.83132046480226]
我々は、kth Markovプロセスから引き出されたデータに対するトランスフォーマーの挙動について検討する。固定深さと1層あたり1ドルヘッドを持つ変圧器は、kth Markovソースから引き出されたシーケンスに対して、低いテスト損失を達成できることがわかった。
論文参考訳（メタデータ） (2024-07-25T01:07:09Z)
Attention with Markov: A Framework for Principled Analysis of Transformers via Markov Chains [48.146073732531605]
マルコフ連鎖のレンズによる変圧器の逐次モデリング機能について検討する。自然言語のマルコフ性に触発され、マルコフの情報源としてデータをモデル化する。我々は,データ特性とトランスフォーマーアーキテクチャに基づいて,グローバルなミニマと悪いローカルなミニマの存在を示す。
論文参考訳（メタデータ） (2024-02-06T17:18:59Z)
Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文参考訳（メタデータ） (2023-11-29T13:51:04Z)
On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文参考訳（メタデータ） (2023-11-02T20:03:05Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
An Introduction to Transformers [23.915718146956355]
Transformerは、有用なシーケンスやデータポイントのセットを学ぶために使用できるニューラルネットワークコンポーネントである。本稿では,トランスアーキテクチャの数学的,正確,直感的,クリーンな記述を目指す。
論文参考訳（メタデータ） (2023-04-20T14:54:19Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。