論文の概要: Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions
- arxiv url: http://arxiv.org/abs/2603.06248v1
- Date: Fri, 06 Mar 2026 13:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.781142
- Title: Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions
- Title(参考訳): 低エントロピー溶液へ向けたグラディエントフローによるソフトマックス出力の偏極
- Authors: Aditya Varre, Mark Rofin, Nicolas Flammarion,
- Abstract要約: L(mathbfV mathbfa)$, $mathbfV と $mathbfa$ はそれぞれ学習可能な値行列とアテンションベクトルである。
低エントロピー出力を特徴とする解に対する最適化上のこの勾配流は、ロジスティックな正方損失を含む様々な目的に対して偏極していることを明らかにする。
- 参考スコア(独自算出の注目度): 31.988459260329353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the intricate non-convex training dynamics of softmax-based models is crucial for explaining the empirical success of transformers. In this article, we analyze the gradient flow dynamics of the value-softmax model, defined as ${L}(\mathbf{V} σ(\mathbf{a}))$, where $\mathbf{V}$ and $\mathbf{a}$ are a learnable value matrix and attention vector, respectively. As the matrix times softmax vector parameterization constitutes the core building block of self-attention, our analysis provides direct insight into transformer's training dynamics. We reveal that gradient flow on this structure inherently drives the optimization toward solutions characterized by low-entropy outputs. We demonstrate the universality of this polarizing effect across various objectives, including logistic and square loss. Furthermore, we discuss the practical implications of these theoretical results, offering a formal mechanism for empirical phenomena such as attention sinks and massive activations.
- Abstract(参考訳): ソフトマックスモデルにおける複雑な非凸トレーニングのダイナミクスを理解することは、トランスフォーマーの実証的な成功を説明する上で重要である。
本稿では,{L}(\mathbf{V} σ(\mathbf{a}))$, $\mathbf{V}$ と $\mathbf{a}$ はそれぞれ学習可能な値行列とアテンションベクトルである。
行列時間のソフトマックスベクトルパラメタライゼーションは自己注意のコアビルディングブロックを構成するため、この分析はトランスフォーマーのトレーニング力学を直接的に理解する。
この構造上の勾配流は、本質的に低エントロピー出力を特徴とする解への最適化を促進する。
この偏光効果の普遍性は、ロジスティックな損失や正方形損失など、様々な目的にまたがる。
さらに,これらの理論結果の実践的意味を論じ,注意シンクや大量活性化といった経験的現象の形式的メカニズムを提供する。
関連論文リスト
- Gradient Descent as a Perceptron Algorithm: Understanding Dynamics and Implicit Acceleration [67.12978375116599]
勾配降下(GD)のステップが一般化されたパーセプトロンアルゴリズムのステップに還元されることを示す。
これは、ニューラルネットワークで観測される最適化力学と暗黙の加速現象を説明するのに役立つ。
論文 参考訳(メタデータ) (2025-12-12T14:16:35Z) - Diagonalizing the Softmax: Hadamard Initialization for Tractable Cross-Entropy Dynamics [29.85277126753054]
クロスエントロピー(CE)損失はディープラーニングを支配しているが、既存の理論はしばしば単純化に依存している。
標準的なニューラルネットワークベクトルを持つ標準ネットワークの詳細な特徴付けを行う。
論文 参考訳(メタデータ) (2025-12-03T17:45:09Z) - Exact Dynamics of Multi-class Stochastic Gradient Descent [4.1538344141902135]
ワンパス勾配勾配法(SGD)を用いて学習した多種多様な高次元最適化問題の学習・学習速度ダイナミクスを解析するためのフレームワークを開発する。
我々は、ODEのシステムに対する決定論的解という観点から、リスクや真の信号との重なり合いを含む、制限力学の関数の大規模なクラスに対して、正確な表現を与える。
論文 参考訳(メタデータ) (2025-10-15T20:31:49Z) - Optimization Insights into Deep Diagonal Linear Networks [10.395029724463672]
直交ニューラルネットワークのパラメータを推定するための勾配流"アルゴリズム"の暗黙的正規化特性について検討した。
我々の主な貢献は、この勾配流がモデル上のミラーフローを動的に誘導することであり、これは問題の特定の解に偏っていることを意味する。
論文 参考訳(メタデータ) (2024-12-21T20:23:47Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Understanding convolution on graphs via energies [23.18124653469668]
グラフネットワーク(GNN)は一般的にメッセージパッシングによって動作し、隣人から受信した情報に基づいてノードの状態が更新される。
ほとんどのメッセージパッシングモデルはグラフ畳み込みとして機能し、エッジ上に伝播する前に共有された線形変換によって特徴が混合される。
ノード分類タスクでは、グラフの畳み込みには2つの制限がある。
論文 参考訳(メタデータ) (2022-06-22T11:45:36Z) - Extension of Dynamic Mode Decomposition for dynamic systems with
incomplete information based on t-model of optimal prediction [69.81996031777717]
動的モード分解は、動的データを研究するための非常に効率的な手法であることが証明された。
このアプローチの適用は、利用可能なデータが不完全である場合に問題となる。
本稿では,森-Zwanzig分解の1次近似を考察し,対応する最適化問題を記述し,勾配に基づく最適化法を用いて解く。
論文 参考訳(メタデータ) (2022-02-23T11:23:59Z) - A Near-Optimal Gradient Flow for Learning Neural Energy-Based Models [93.24030378630175]
学習エネルギーベースモデル(EBM)の勾配流を最適化する新しい数値スキームを提案する。
フォッカー・プランク方程式から大域相対エントロピーの2階ワッサーシュタイン勾配流を導出する。
既存のスキームと比較して、ワッサーシュタイン勾配流は実データ密度を近似するより滑らかで近似的な数値スキームである。
論文 参考訳(メタデータ) (2019-10-31T02:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。