Fugu-MT 論文翻訳(概要): Diagonalizing the Softmax: Hadamard Initialization for Tractable Cross-Entropy Dynamics

論文の概要: Diagonalizing the Softmax: Hadamard Initialization for Tractable Cross-Entropy Dynamics

arxiv url: http://arxiv.org/abs/2512.04006v1
Date: Wed, 03 Dec 2025 17:45:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-04 20:02:55.403869
Title: Diagonalizing the Softmax: Hadamard Initialization for Tractable Cross-Entropy Dynamics
Title（参考訳）: ソフトマックスの対角化:トラクタブルクロスエントロピーダイナミクスのためのアダマール初期化
Authors: Connall Garrod, Jonathan P. Keating, Christos Thrampoulidis,
Abstract要約: クロスエントロピー(CE)損失はディープラーニングを支配しているが、既存の理論はしばしば単純化に依存している。標準的なニューラルネットワークベクトルを持つ標準ネットワークの詳細な特徴付けを行う。
参考スコア（独自算出の注目度）: 29.85277126753054
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cross-entropy (CE) training loss dominates deep learning practice, yet existing theory often relies on simplifications, either replacing it with squared loss or restricting to convex models, that miss essential behavior. CE and squared loss generate fundamentally different dynamics, and convex linear models cannot capture the complexities of non-convex optimization. We provide an in-depth characterization of multi-class CE optimization dynamics beyond the convex regime by analyzing a canonical two-layer linear neural network with standard-basis vectors as inputs: the simplest non-convex extension for which the implicit bias remained unknown. This model coincides with the unconstrained features model used to study neural collapse, making our work the first to prove that gradient flow on CE converges to the neural collapse geometry. We construct an explicit Lyapunov function that establishes global convergence, despite the presence of spurious critical points in the non-convex landscape. A key insight underlying our analysis is an inconspicuous finding: Hadamard Initialization diagonalizes the softmax operator, freezing the singular vectors of the weight matrices and reducing the dynamics entirely to their singular values. This technique opens a pathway for analyzing CE training dynamics well beyond our specific setting considered here.
Abstract（参考訳）: クロスエントロピー(CE)のトレーニング損失はディープラーニングの実践に支配されるが、既存の理論はしばしば単純化に依存している。 CEと2乗損失は基本的に異なるダイナミクスを生み出し、凸線型モデルは非凸最適化の複雑さを捉えることができない。本稿では,正準二層線形ニューラルネットワークと標準基底ベクトルを入力として解析することにより,凸法以外の多クラスCE最適化の詳細な特徴付けを行う。このモデルは、神経崩壊を研究するために使用される制約のない特徴モデルと一致し、CE上の勾配流が神経崩壊幾何学に収束することを初めて証明した。非凸景観に急激な臨界点が存在するにもかかわらず、大域収束を確立する明示的なリャプノフ関数を構築する。アダマール初期化はソフトマックス作用素を対角化し、ウェイト行列の特異ベクトルを凍結し、力学をその特異値に完全に還元する。この技術は、CEトレーニングのダイナミクスを、ここで考慮した特定の設定を超えて解析するための経路を開く。

関連論文リスト

Random Matrix Theory for Deep Learning: Beyond Eigenvalues of Linear Models [51.85815025140659]
現代の機械学習(ML)とディープニューラルネットワーク(DNN)は高次元のデータを扱うことが多い。特に、データ次元、サンプルサイズ、モデルパラメータの数がすべて大きな比例規則は、新しく、時には直感に反する振る舞いを引き起こす。本稿では、線形モデルの固有値に基づく解析を超えて従来のランダム行列理論(RMT)を拡張し、非線形MLモデルによる課題に対処する。
論文参考訳（メタデータ） (2025-06-16T06:54:08Z)
Asymptotics of Non-Convex Generalized Linear Models in High-Dimensions: A proof of the replica formula [17.036996839737828]
非次元ガウス正規化モデルの最適性を証明するために,アルゴリズムをどのように利用できるかを示す。また, 負の正則化モデルの最適性を証明するために, テューキー損失を用いる方法を示す。
論文参考訳（メタデータ） (2025-02-27T11:29:43Z)
The Convex Landscape of Neural Networks: Characterizing Global Optima and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。本稿では,凸型神経回復モデルについて検討する。定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文参考訳（メタデータ） (2023-12-19T23:04:56Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文参考訳（メタデータ） (2023-05-27T21:25:55Z)
Nonlinear proper orthogonal decomposition for convection-dominated flows [0.0]
そこで本稿では,自動エンコーダと長期記憶ネットワークを組み合わせたエンドツーエンドのガレルキンフリーモデルを提案する。我々の手法は精度を向上するだけでなく、トレーニングやテストの計算コストを大幅に削減する。
論文参考訳（メタデータ） (2021-10-15T18:05:34Z)
On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。エルゴード理論の力学系に基づく新しい視点を提案する。
論文参考訳（メタデータ） (2021-10-12T18:12:23Z)
Hessian Eigenspectra of More Realistic Nonlinear Models [73.31363313577941]
私たちは、非線形モデルの広いファミリーのためのヘッセン固有スペクトルの言語的特徴付けを行います。我々の分析は、より複雑な機械学習モデルで観察される多くの顕著な特徴の起源を特定するために一歩前進する。
論文参考訳（メタデータ） (2021-03-02T06:59:52Z)
The role of optimization geometry in single neuron learning [12.891722496444036]
近年,表現型ニューラルネットワークの学習において,最適化アルゴリズムの選択が一般化性能に影響を与えることが実証されている。幾何学と特徴幾何学の相互作用が、どのようにしてアウト・オブ・サンプレットを導き、性能を向上させるかを示す。
論文参考訳（メタデータ） (2020-06-15T17:39:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。