論文の概要: Ghosts of Softmax: Complex Singularities That Limit Safe Step Sizes in Cross-Entropy
- arxiv url: http://arxiv.org/abs/2603.13552v1
- Date: Fri, 13 Mar 2026 19:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.267756
- Title: Ghosts of Softmax: Complex Singularities That Limit Safe Step Sizes in Cross-Entropy
- Title(参考訳): ソフトマックスのゴースト: クロスエントロピーにおける安全なステップサイズを制限する複雑な特異点
- Authors: Piyush Sao,
- Abstract要約: クロスエントロピートレーニング分析は、提案されたステップが目標を減少させるかどうかを予測するために、損失の局所的なテイラーモデルに依存する。
提案した更新方向に沿って,ロジット線形化の下で閉形式式を導出する。
_a$の正規化は、標準偏差$0.992$から$0.164$へのオンセット閾値の広がりを縮小する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimization analyses for cross-entropy training rely on local Taylor models of the loss to predict whether a proposed step will decrease the objective. These surrogates are reliable only inside the Taylor convergence radius of the true loss along the update direction. That radius is set not by real-line curvature alone but by the nearest complex singularity. For cross-entropy, the softmax partition function $F=\sum_j \exp(z_j)$ has complex zeros -- ``ghosts of softmax'' -- that induce logarithmic singularities in the loss and cap this radius. To make this geometry usable, we derive closed-form expressions under logit linearization along the proposed update direction. In the binary case, the exact radius is $ρ^*=\sqrt{δ^2+ π^2}/Δ_a$. In the multiclass case, we obtain the lower bound $ρ_a=π/Δ_a$, where $Δ_a=\max_k a_k-\min_k a_k$ is the spread of directional logit derivatives $a_k=\nabla z_k\cdot v$. This bound costs one Jacobian-vector product and reveals what makes a step fragile: samples that are both near a decision flip and highly sensitive to the proposed direction tighten the radius. The normalized step size $r=τ/ρ_a$ separates safe from dangerous updates. Across six tested architectures and multiple step directions, no model fails for $r<1$, yet collapse appears once $r\ge 1$. Temperature scaling confirms the mechanism: normalizing by $ρ_a$ shrinks the onset-threshold spread from standard deviation $0.992$ to $0.164$. A controller that enforces $τ\leρ_a$ survives learning-rate spikes up to $10{,} 000\times$ in our tests, where gradient clipping still collapses. Together, these results identify a geometric constraint on cross-entropy optimization that operates through Taylor convergence rather than Hessian curvature.
- Abstract(参考訳): クロスエントロピートレーニングのための最適化解析は、提案されたステップが目的を減少させるかどうかを予測するために、損失の局所的なテイラーモデルに依存する。
これらのサロゲートは、更新方向に沿った真の損失のテイラー収束半径内でのみ信頼できる。
この半径は、実数直線曲率のみではなく、最も近い複素特異点によって設定される。
クロスエントロピーの場合、ソフトマックス分割関数 $F=\sum_j \exp(z_j)$ は複素零点 -- ``ghosts of softmax'' を持ち、損失の対数特異点を誘導し、この半径をキャップする。
この幾何を利用可能にするために、提案した更新方向に沿ってロジト線形化の下で閉形式式を導出する。
二項の場合、正確な半径は$ρ^*=\sqrt{δ^2+ π^2}/Δ_a$である。
多クラスの場合、下界の$ρ_a=π/Δ_a$ を得るが、$Δ_a=\max_k a_k-\min_k a_k$ は方向ロジット微分 $a_k=\nabla z_k\cdot v$ の拡散である。
この境界は1つのジャコビアンベクトル積を犠牲にし、決定フリップに近く、提案された方向に非常に敏感なサンプルが半径を締め付けるという、ステップの脆弱さを明らかにしている。
正規化されたステップサイズ$r=τ/ρ_a$は、危険な更新からセーフを分離する。
6つのテストされたアーキテクチャと複数のステップの方向性で、$r<1$でモデルが失敗することはないが、$r\ge 1$で崩壊する。
ρ_a$ の正規化は標準偏差 $0.992$ から $0.164$ へのオンセット閾値拡散を縮小する。
τ\leρ_a$を強制するコントローラは、我々のテストで最大10{,} 000\times$まで学習速度のスパイクを継続します。
これらの結果は、ヘッセン曲率よりもテイラー収束を通したクロスエントロピー最適化の幾何学的制約を特定する。
関連論文リスト
- INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Closed-form $\ell_r$ norm scaling with data for overparameterized linear regression and diagonal linear networks under $\ell_p$ bias [0.0]
パラメータノルムの族をスケールするために、統一的で高確率な特徴を与える。
次に、降下によって訓練された線形ネットワークについて研究する。
論文 参考訳(メタデータ) (2025-09-25T13:59:22Z) - Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction [57.93371273485736]
我々は、すべての労働者が同一の分布にアクセスする均質な(すなわちd.d.)場合であっても、すべての労働者が非バイアス付き境界 LDeltaepsilon2,$$$$$ のポリ対数的により良いポリ対数を求める集中型分散学習環境を考える。
論文 参考訳(メタデータ) (2025-06-30T13:27:39Z) - A Proximal Modified Quasi-Newton Method for Nonsmooth Regularized Optimization [0.7373617024876725]
Lipschitz-of-$nabla f$
$mathcalS_k|p$。
$mathcalS_k|p$。
$nabla f$.
$mathcalS_k|p$。
論文 参考訳(メタデータ) (2024-09-28T18:16:32Z) - Provable Complexity Improvement of AdaGrad over SGD: Upper and Lower Bounds in Stochastic Non-Convex Optimization [18.47705532817026]
適応勾配法は、最も成功したニューラルネットワークトレーニングアルゴリズムの一つである。
これらの手法は凸SGD-ノルマリティよりも次元依存性が優れていることが知られている。
本稿では,構造物の滑らかさと勾配雑音の分散に関する新しい仮定を紹介する。
論文 参考訳(メタデータ) (2024-06-07T02:55:57Z) - Measurement-induced phase transition for free fermions above one dimension [46.176861415532095]
自由フェルミオンモデルに対する$d>1$次元における測定誘起エンタングルメント相転移の理論を開発した。
臨界点は、粒子数と絡み合いエントロピーの第2累積のスケーリング$$elld-1 ln ell$でギャップのない位相を分離する。
論文 参考訳(メタデータ) (2023-09-21T18:11:04Z) - How isotropic kernels perform on simple invariants [0.5729426778193397]
等方性カーネル手法のトレーニング曲線は、学習すべきタスクの対称性に依存するかを検討する。
大規模な帯域幅では、$beta = fracd-1+xi3d-3+xi$, where $xiin (0,2)$ がカーネルのストライプを原点とする指数であることを示す。
論文 参考訳(メタデータ) (2020-06-17T09:59:18Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z) - Curse of Dimensionality on Randomized Smoothing for Certifiable
Robustness [151.67113334248464]
我々は、他の攻撃モデルに対してスムースな手法を拡張することは困難であることを示す。
我々はCIFARに関する実験結果を示し,その理論を検証した。
論文 参考訳(メタデータ) (2020-02-08T22:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。