論文の概要: Optimizer choice matters for the emergence of Neural Collapse
- arxiv url: http://arxiv.org/abs/2602.16642v1
- Date: Wed, 18 Feb 2026 17:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.66869
- Title: Optimizer choice matters for the emergence of Neural Collapse
- Title(参考訳): ニューラル崩壊の出現における最適選択
- Authors: Jim Zhao, Tin Sum Cheng, Wojciech Masarczyk, Aurelien Lucchi,
- Abstract要約: ニューラル・コラプス(Neural Collapse, NC)とは、訓練の最終段階における深層ニューラルネットワークの表現において、高度に対称な幾何学構造が出現することを指す。
既存の分析はニューラル・コラプスの役割を無視しており、NCが最適化法全体にわたって普遍的であることを示唆している。
本研究では,定量化NCの選択がNCの出現において重要な役割を担っていることを示す。
- 参考スコア(独自算出の注目度): 4.951149983257743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Collapse (NC) refers to the emergence of highly symmetric geometric structures in the representations of deep neural networks during the terminal phase of training. Despite its prevalence, the theoretical understanding of NC remains limited. Existing analyses largely ignore the role of the optimizer, thereby suggesting that NC is universal across optimization methods. In this work, we challenge this assumption and demonstrate that the choice of optimizer plays a critical role in the emergence of NC. The phenomenon is typically quantified through NC metrics, which, however, are difficult to track and analyze theoretically. To overcome this limitation, we introduce a novel diagnostic metric, NC0, whose convergence to zero is a necessary condition for NC. Using NC0, we provide theoretical evidence that NC cannot emerge under decoupled weight decay in adaptive optimizers, as implemented in AdamW. Concretely, we prove that SGD, SignGD with coupled weight decay (a special case of Adam), and SignGD with decoupled weight decay (a special case of AdamW) exhibit qualitatively different NC0 dynamics. Also, we show the accelerating effect of momentum on NC (beyond convergence of train loss) when trained with SGD, being the first result concerning momentum in the context of NC. Finally, we conduct extensive empirical experiments consisting of 3,900 training runs across various datasets, architectures, optimizers, and hyperparameters, confirming our theoretical results. This work provides the first theoretical explanation for optimizer-dependent emergence of NC and highlights the overlooked role of weight-decay coupling in shaping the implicit biases of optimizers.
- Abstract(参考訳): ニューラル・コラプス(Neural Collapse, NC)とは、訓練の最終段階における深層ニューラルネットワークの表現において、高度に対称な幾何学構造が出現することを指す。
NCの有病率にもかかわらず、NCの理論的理解は限定的である。
既存の分析はオプティマイザの役割を無視しており、NCが最適化法全体にわたって普遍的であることを示唆している。
本研究では,この仮定に挑戦し,NCの出現において最適化器の選択が重要な役割を担っていることを実証する。
この現象は典型的にはNCメトリクスによって定量化されるが、理論上は追跡と解析が困難である。
この限界を克服するために,新しい診断基準NC0を導入する。
NC0を用いて、AdamWで実装された適応オプティマイザにおいて、NCが非結合重み劣化の下では出現できないという理論的証拠を提供する。
具体的には,SGD,SignGD,結合重量減衰(Adamの特殊な場合),SignGD,分離重量減衰(AdamWの特殊な場合)が定性的に異なるNC0ダイナミクスを示すことを示す。
また,SGD訓練時のNC(列車損失の収束)に対する運動量の影響を,NCの文脈における運動量に関する最初の結果として示す。
最後に、さまざまなデータセット、アーキテクチャ、オプティマイザ、ハイパーパラメータにわたる3,900のトレーニングによる広範な実験を行い、理論結果を確認します。
この研究は、最適化者に依存したNCの出現に関する最初の理論的説明を提供し、最適化者の暗黙のバイアスを形作る際の重みとデカイのカップリングの見過ごされた役割を強調している。
関連論文リスト
- Neural Collapse under Gradient Flow on Shallow ReLU Networks for Orthogonally Separable Data [52.737775129027575]
直交分離可能なデータを分類するための2層ReLUネットワーク上の勾配流がニューラル・コラプス(NC)を示すことを示す。
NCの出現を促進するためのトレーニング力学の暗黙バイアスの役割を明らかにする。
論文 参考訳(メタデータ) (2025-10-24T01:36:19Z) - Beyond Unconstrained Features: Neural Collapse for Shallow Neural Networks with General Data [0.8594140167290099]
ニューラル崩壊(Neural collapse, NC)は、ディープ・ニューラル・ネットワーク(DNN)の終末期に発生する現象である。
2層または3層ニューラルネットワークでNCが発生した場合の完全な特徴付けを提供する。
論文 参考訳(メタデータ) (2024-09-03T12:30:21Z) - Can Kernel Methods Explain How the Data Affects Neural Collapse? [9.975341265604577]
ニューラルネットワーク(NN)分類器がゼロトレーニングエラー点を超えると、"Neural Collapse"(NC)現象が発生する。
本稿では,浅いNNに関連付けられたカーネルを用いてNC1を解析する可能性について検討する。
論文 参考訳(メタデータ) (2024-06-04T08:33:56Z) - Towards Demystifying the Generalization Behaviors When Neural Collapse
Emerges [132.62934175555145]
Neural Collapse(NC)は、トレーニング末期(TPT)におけるディープニューラルネットワークのよく知られた現象である
本稿では,列車の精度が100%に達した後も,継続訓練がテストセットの精度向上に繋がる理由を理論的に説明する。
我々はこの新たに発見された性質を「非保守的一般化」と呼ぶ。
論文 参考訳(メタデータ) (2023-10-12T14:29:02Z) - Towards Understanding Neural Collapse: The Effects of Batch Normalization and Weight Decay [0.6813925418351435]
ニューラル・コラプス(Neural Collapse, NC)は、深層ニューラルネットワークの終端で最近観測された幾何学的構造である。
我々は,バッチ正規化(BN)と重量減衰(WD)がNCの出現に重大な影響を及ぼすことを示した。
実験では, モデルがBN, 適切なWD値, 損失の低減, 最終層特徴ノルムの低下により, NCの存在感が強くなることを示した。
論文 参考訳(メタデータ) (2023-09-09T00:05:45Z) - A Neural Collapse Perspective on Feature Evolution in Graph Neural
Networks [44.31777384413466]
グラフニューラルネットワーク(GNN)は、グラフ構造化データの分類タスクでますます人気が高まっている。
本稿では,ノードワイズ分類に着目し,ニューラル崩壊現象のレンズによる特徴進化を考察する。
我々は、「最適」な数学的モデルでさえ、グラフが正確な崩壊を伴う最小値を持つためには厳密な構造条件に従う必要があることを示した。
論文 参考訳(メタデータ) (2023-07-04T23:03:21Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。