論文の概要: Dispelling the Curse of Singularities in Neural Network Optimizations
- arxiv url: http://arxiv.org/abs/2602.01308v1
- Date: Sun, 01 Feb 2026 16:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.707599
- Title: Dispelling the Curse of Singularities in Neural Network Optimizations
- Title(参考訳): ニューラルネットワーク最適化における特異点曲線の解法
- Authors: Hengjie Cao, Mengyi Chen, Yifeng Yang, Fang Dong, Ruijun Huang, Anrui Chen, Jixian Zhou, Mingzhi Dong, Yujiang Wang, Dongsheng Li, Wenyi Fang, Yuanyi Lin, Fan Wu, Li Shang,
- Abstract要約: 勾配フロベニウスノルムは重み行列の最高特異値によって有界であることを示し、訓練が進むにつれて、重みと表現特異点の相互に強化され、これらの境界を緩和し、鋭い損失爆発のリスクをエスカレートする。
これに対応するために,軽量でフレキシブルで効果的な重み行列の特異スペクトル平滑化法であるParametric Singularity Smoothing (PSS)を提案する。
- 参考スコア(独自算出の注目度): 22.05217959662069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates the optimization instability of deep neural networks from a less-explored yet insightful perspective: the emergence and amplification of singularities in the parametric space. Our analysis reveals that parametric singularities inevitably grow with gradient updates and further intensify alignment with representations, leading to increased singularities in the representation space. We show that the gradient Frobenius norms are bounded by the top singular values of the weight matrices, and as training progresses, the mutually reinforcing growth of weight and representation singularities, termed the curse of singularities, relaxes these bounds, escalating the risk of sharp loss explosions. To counter this, we propose Parametric Singularity Smoothing (PSS), a lightweight, flexible, and effective method for smoothing the singular spectra of weight matrices. Extensive experiments across diverse datasets, architectures, and optimizers demonstrate that PSS mitigates instability, restores trainability even after failure, and improves both training efficiency and generalization.
- Abstract(参考訳): 本研究では、パラメトリック空間における特異点の出現と増幅という、探索されていないが洞察力に富んだ視点から、ディープニューラルネットワークの最適化不安定性について検討する。
解析の結果、勾配の更新とともにパラメトリック特異点が必然的に増大し、さらに表現とのアライメントが強化され、表現空間の特異点が増大することが明らかとなった。
勾配フロベニウスノルムが重み行列の最高特異値によって有界であることを示し、訓練が進むにつれて、重みと表現特異点の相互に強化される成長は特異性の呪いと呼ばれ、これらの境界を緩和し、急激な損失爆発のリスクをエスカレートする。
これに対応するために,軽量でフレキシブルで効果的なウェイト行列の特異スペクトル平滑化法であるParametric Singularity Smoothing (PSS)を提案する。
さまざまなデータセット、アーキテクチャ、オプティマイザにわたる大規模な実験では、PSSが不安定を軽減し、障害後のトレーニング性を回復し、トレーニング効率と一般化の両方を改善することが示されている。
関連論文リスト
- SIGMA: Scalable Spectral Insights for LLM Collapse [51.863164847253366]
SIGMA(Spectral Inequalities for Gram Matrix Analysis)は,モデル崩壊のための統一的なフレームワークである。
行列のスペクトル上の決定論的境界を導出するベンチマークを利用することで、SIGMAは表現空間の収縮を追跡するために数学的に基底化された計量を提供する。
我々は、SIGMAが状態への遷移を効果的に捉え、崩壊のメカニズムに関する理論的知見の両方を提供することを示した。
論文 参考訳(メタデータ) (2026-01-06T19:47:11Z) - Random matrix theory of sparse neuronal networks with heterogeneous timescales [0.6181093777643575]
リカレントニューロンネットワークのトレーニングは、運動記憶計算のための付加ノイズを伴う興奮性(E)と抑制性(I)ユニットから構成される。
本稿では、これらの平衡付近の力学を考察し、不均一なシナプス崩壊時間スケールとアクティベーション-関数ゲインによって修飾されたスパース非エルミート長方形ブロック行列であることを示す。
ヤコビアンの統計パラメータと、ロバストなワーキングメモリ計算に不可欠な平衡のほぼクリティカルな特徴を関連づけたスペクトルエッジの解析的記述を得る。
論文 参考訳(メタデータ) (2025-12-14T17:02:22Z) - Low-Rank Tensor Recovery via Variational Schatten-p Quasi-Norm and Jacobian Regularization [49.85875869048434]
暗黙的神経表現のためのニューラルネットワークによりパラメータ化されたCPベースの低ランクテンソル関数を提案する。
本研究では、スペーサーCP分解を実現するために、冗長なランク1成分に変分Schatten-p quasi-normを導入する。
滑らか性のために、ヤコビアンとハッチンソンのトレース推定器のスペクトルノルムに基づく正規化項を提案する。
論文 参考訳(メタデータ) (2025-06-27T11:23:10Z) - Consistency of augmentation graph and network approximability in contrastive learning [3.053989095162017]
拡張グラフ Laplacian の点方向およびスペクトル整合性について解析する。
ラプラシアンは自然データ多様体上の重み付きラプラス・ベルトラミ作用素に収束することを示す。
これらの整合性は、グラフラプラシアスペクトルが多様体幾何学を効果的に捉えることを保証する。
論文 参考訳(メタデータ) (2025-02-06T18:55:51Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Regularization, early-stopping and dreaming: a Hopfield-like setup to
address generalization and overfitting [0.0]
正規化損失関数に勾配降下を適用し,最適ネットワークパラメータを求める。
この枠組みの中で、最適なニューロン相互作用行列は、繰り返し学習プロトコルによって修正されたヘビアン核に対応する。
論文 参考訳(メタデータ) (2023-08-01T15:04:30Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。