論文の概要: Fast Gauss-Newton for Multiclass Cross-Entropy
- arxiv url: http://arxiv.org/abs/2605.06081v1
- Date: Thu, 07 May 2026 12:03:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.747159
- Title: Fast Gauss-Newton for Multiclass Cross-Entropy
- Title(参考訳): マルチクラスクロスエントロピーのための高速ガウスニュートン
- Authors: Mikalai Korbit, Mario Zanon,
- Abstract要約: 多クラスソフトマックスクロスエントロピーにおいて、全一般化ガウスニュートン曲率(GGN)は、ソフトマックス共分散を通じて全ての出力ロジットを結合する。
標準マルチクラスGGNは、真-vs-rest項と正半定値な競合子内共分散項に正確に分解可能であることを示す。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multiclass softmax cross-entropy, the full generalized Gauss-Newton (GGN) curvature couples all output logits through the softmax covariance, making curvature-vector products harder to scale as the number of classes grows. We show that the standard multiclass GGN can be decomposed exactly into a true-vs-rest term and a positive semidefinite within-competitor covariance term. Fast Gauss-Newton (FGN) retains the first term and drops the second, yielding a positive semidefinite under-approximation of the multiclass GGN that is exact for binary classification. The derivation uses an exact true-vs-rest scalar-margin representation of softmax cross-entropy: the loss and gradient are unchanged, and the approximation enters only at the curvature level. Exploiting the FGN curvature structure, the damped update can be written as an equivalent whitened row-space system with one row per mini-batch example. We solve this system matrix-free by conjugate gradient using Jacobian-vector and vector-Jacobian products of the scalar margin map. Targeted mechanism experiments and an evaluation on a fixed-feature multiclass head support the predictions from the decomposition: FGN stays closest to the full softmax GGN when competitor mass is concentrated or damping is large, and deviates as the dropped within-competitor covariance grows.
- Abstract(参考訳): 多クラスソフトマックスのクロスエントロピーにおいて、全一般化ガウスニュートン曲率(GGN)は、軟マックス共分散を通じて全ての出力ロジットを結合し、クラス数が増加するにつれて曲率ベクトル積のスケーリングが困難になる。
標準マルチクラスGGNは、真-vs-rest項と正半定値な競合子内共分散項に正確に分解可能であることを示す。
Fast Gauss-Newton (FGN) は第1項を保持し、第2項を減少させ、正の半定値な多クラス GGN の下近似を与える。
導出は、正確には真のvs-restスカラー-マージン表現を用いて、ソフトマックスのクロスエントロピーを表現し、損失と勾配は変化せず、近似は曲率レベルのみに入る。
FGNの曲率構造をエクスプロットすると、ダンプされた更新は、ミニバッチの例に1行ずつ、等価なホワイト付き行空間システムとして記述できる。
この系は、スカラーマージン写像のヤコビベクトルとベクトルヤコビ積を用いて共役勾配で解ける。
FGNは、競合質量が集中または減衰が大きい場合、フルソフトマックスGGNに近づき、減少するコンペタ内共分散が増大するにつれて減少する。
関連論文リスト
- Accelerated Gradient Methods with Biased Gradient Estimates: Risk Sensitivity, High-Probability Guarantees, and Large Deviation Bounds [12.025550076793396]
本研究では,収束率と強靭性への勾配のトレードオフについて,一階法の文脈で検討する。
潜在的なバイアス付き準ガウス勾配誤差の下では、リスク・センシティブ・インデックス(RSI)の有限時間アナログ上の非漸近境界を導出する。
滑らかな凸関数の場合、RSIと収束率境界との間の類似のトレードオフも観察する。
論文 参考訳(メタデータ) (2025-09-17T01:56:31Z) - Global Convergence of Gradient EM for Over-Parameterized Gaussian Mixtures [53.51230405648361]
勾配EMの力学を考察し, テンソル分解を用いて幾何的景観を特徴付ける。
これは、m=2$という特別な場合を超えるEMや勾配EMに対する最初の大域収束と回復の結果である。
論文 参考訳(メタデータ) (2025-06-06T23:32:38Z) - MGDA Converges under Generalized Smoothness, Provably [27.87166415148172]
多目的最適化(MOO)はマルチタスク学習など様々な分野で注目を集めている。
最近の研究は、理論解析を伴う効果的なアルゴリズムを提供しているが、それらは標準の$L$-smoothあるいは有界勾配仮定によって制限されている。
一般化された$ell$-smooth損失関数のより一般的で現実的なクラスについて研究し、$ell$は勾配ノルムの一般非減少関数である。
論文 参考訳(メタデータ) (2024-05-29T18:36:59Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - Spectral clustering under degree heterogeneity: a case for the random
walk Laplacian [83.79286663107845]
本稿では,ランダムウォークラプラシアンを用いたグラフスペクトル埋め込みが,ノード次数に対して完全に補正されたベクトル表現を生成することを示す。
次数補正ブロックモデルの特別な場合、埋め込みはK個の異なる点に集中し、コミュニティを表す。
論文 参考訳(メタデータ) (2021-05-03T16:36:27Z) - Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文 参考訳(メタデータ) (2020-10-01T16:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。