論文の概要: Spectral Alignment as Predictor of Loss Explosion in Neural Network Training
- arxiv url: http://arxiv.org/abs/2510.04202v1
- Date: Sun, 05 Oct 2025 13:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.513538
- Title: Spectral Alignment as Predictor of Loss Explosion in Neural Network Training
- Title(参考訳): ニューラルネットワークトレーニングにおける損失爆発予測器としてのスペクトルアライメント
- Authors: Haiquan Qiu, You Wu, Yingjie Tan, Yaqing Wang, Quanming Yao,
- Abstract要約: ディープニューラルネットワークのトレーニングにおける損失爆発は、数百万ドルのトレーニング実行を無効にする可能性がある。
重み行列の主特異ベクトルと層入力の分布アライメントを監視する新しい計量であるスペクトルアライメントを導入する。
言語モデルに関する実証的な結果は、SA分布の監視が従来のスカラーメトリクスよりもはるかに早く、明確な損失爆発の警告を提供することを示している。
- 参考スコア(独自算出の注目度): 31.831122738372603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Loss explosions in training deep neural networks can nullify multi-million dollar training runs. Conventional monitoring metrics like weight and gradient norms are often lagging and ambiguous predictors, as their values vary dramatically across different models and even between layers of the same model, making it difficult to establish a unified standard for detecting impending failure. We introduce Spectral Alignment (SA), a novel, theoretically-grounded metric that monitors the distributional alignment between layer inputs and the principal singular vectors of weight matrices. We show that a collapse in the sign diversity of this alignment is a powerful early predictor of representational collapse and training divergence. Empirical results on language models demonstrate that monitoring the SA distribution provides a significantly earlier and clearer warning of loss explosions than traditional scalar metrics. SA's low computational overhead makes it a practical tool for safeguarding model training.
- Abstract(参考訳): ディープニューラルネットワークのトレーニングにおける損失爆発は、数百万ドルのトレーニング実行を無効にする可能性がある。
重みや勾配の基準のような従来の監視指標は、異なるモデルや同じモデルの層の間でも、その値が劇的に変化するため、しばしば遅延し曖昧な予測器となるため、迫り来る障害を検出するための統一された標準を確立することは困難である。
本稿では, 層入力と重み行列の主特異ベクトルとの分布アライメントをモニタする, 理論上の新しい測度であるスペクトルアライメント(SA)を紹介する。
このアライメントの符号の多様性の崩壊は、表現的崩壊と訓練の分岐の強力な早期予測因子であることを示す。
言語モデルに関する実証的な結果は、SA分布の監視が従来のスカラーメトリクスよりもはるかに早く、明確な損失爆発の警告を提供することを示している。
SAの計算オーバーヘッドが低いため、モデルトレーニングを保護するための実用的なツールになります。
関連論文リスト
- Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks [59.552873049024775]
計算最適化モデルでは, 極めて高精度な普遍性を示すことを示す。
学習速度が減衰すると、崩壊は非常に厳しくなり、モデル間の正規化曲線の差はノイズフロアより下になる。
これらの現象は、典型的なニューラルスケーリング法則において、崩壊とパワー・ロー構造を結びつけることによって説明される。
論文 参考訳(メタデータ) (2025-07-02T20:03:34Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - QGait: Toward Accurate Quantization for Gait Recognition with Binarized Input [17.017127559393398]
バックプロパゲーション時の円関数の勾配をよりよくシミュレートする,微分可能なソフト量子化器を提案する。
これにより、ネットワークは微妙な入力摂動から学習することができる。
量子化エラーをシミュレートしながら収束を確保するためのトレーニング戦略をさらに洗練する。
論文 参考訳(メタデータ) (2024-05-22T17:34:18Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z) - Lossy Compression for Robust Unsupervised Time-Series Anomaly Detection [4.873362301533825]
本稿では,異常検出のためのLossy Causal Temporal Convolutional Neural Network Autoencoderを提案する。
我々のフレームワークは, 速度歪み損失とエントロピーボトルネックを用いて, タスクの圧縮潜在表現を学習する。
論文 参考訳(メタデータ) (2022-12-05T14:29:16Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - A heteroencoder architecture for prediction of failure locations in
porous metals using variational inference [1.2722697496405462]
多孔質金属張力試験片の故障箇所を予測するために,エンコーダ・デコーダ畳み込みニューラルネットワークを用いた。
故障箇所の予測の目的は、標本中のほとんどの材料が故障しないため、クラス不均衡の極端なケースを示す。
得られた予測分散は、任意の標本において最も失敗する可能性のある位置のランク付けに有効であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:53Z) - Dense Out-of-Distribution Detection by Robust Learning on Synthetic
Negative Data [1.7474352892977458]
道路走行シーンとリモートセンシング画像における分布外異常の検出方法を示す。
我々は,カバレッジ指向学習の目的と異なる解像度でサンプルを生成する能力により,共同で訓練された正規化フローを活用する。
結果として得られたモデルは、道路走行シーンとリモートセンシング画像におけるアウト・オブ・ディストリビューション検出のためのベンチマークに、新たな技術状況を設定した。
論文 参考訳(メタデータ) (2021-12-23T20:35:10Z) - Shaping Deep Feature Space towards Gaussian Mixture for Visual
Classification [74.48695037007306]
視覚分類のためのディープニューラルネットワークのためのガウス混合損失関数(GM)を提案する。
分類マージンと可能性正規化により、GM損失は高い分類性能と特徴分布の正確なモデリングの両方を促進する。
提案したモデルは、追加のトレーニング可能なパラメータを使わずに、簡単かつ効率的に実装できる。
論文 参考訳(メタデータ) (2020-11-18T03:32:27Z) - Asymptotic Behavior of Adversarial Training in Binary Classification [41.7567932118769]
敵の訓練は、敵の攻撃に対する防衛の最先端の方法と考えられている。
実際に成功したにもかかわらず、敵の訓練のパフォーマンスを理解する上でのいくつかの問題は未解決のままである。
2進分類における対角訓練の最小化のための正確な理論的予測を導出する。
論文 参考訳(メタデータ) (2020-10-26T01:44:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。