論文の概要: Towards Demystifying the Generalization Behaviors When Neural Collapse
Emerges
- arxiv url: http://arxiv.org/abs/2310.08358v1
- Date: Thu, 12 Oct 2023 14:29:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 11:10:46.236020
- Title: Towards Demystifying the Generalization Behaviors When Neural Collapse
Emerges
- Title(参考訳): 神経崩壊発生時の一般化行動の解明に向けて
- Authors: Peifeng Gao, Qianqian Xu, Yibo Yang, Peisong Wen, Huiyang Shao,
Zhiyong Yang, Bernard Ghanem, Qingming Huang
- Abstract要約: Neural Collapse(NC)は、トレーニング末期(TPT)におけるディープニューラルネットワークのよく知られた現象である
本稿では,列車の精度が100%に達した後も,継続訓練がテストセットの精度向上に繋がる理由を理論的に説明する。
我々はこの新たに発見された性質を「非保守的一般化」と呼ぶ。
- 参考スコア(独自算出の注目度): 132.62934175555145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Collapse (NC) is a well-known phenomenon of deep neural networks in
the terminal phase of training (TPT). It is characterized by the collapse of
features and classifier into a symmetrical structure, known as simplex
equiangular tight frame (ETF). While there have been extensive studies on
optimization characteristics showing the global optimality of neural collapse,
little research has been done on the generalization behaviors during the
occurrence of NC. Particularly, the important phenomenon of generalization
improvement during TPT has been remaining in an empirical observation and
lacking rigorous theoretical explanation. In this paper, we establish the
connection between the minimization of CE and a multi-class SVM during TPT, and
then derive a multi-class margin generalization bound, which provides a
theoretical explanation for why continuing training can still lead to accuracy
improvement on test set, even after the train accuracy has reached 100%.
Additionally, our further theoretical results indicate that different alignment
between labels and features in a simplex ETF can result in varying degrees of
generalization improvement, despite all models reaching NC and demonstrating
similar optimization performance on train set. We refer to this newly
discovered property as "non-conservative generalization". In experiments, we
also provide empirical observations to verify the indications suggested by our
theoretical results.
- Abstract(参考訳): Neural Collapse (NC) は、トレーニングの最終段階(TPT)において、ディープニューラルネットワークのよく知られた現象である。
特徴は特徴と分類器が対称構造に崩壊することであり、これは単純な等角的タイトフレーム (ETF) として知られている。
神経崩壊のグローバル最適性を示す最適化特性に関する広範な研究は行われてきたが、nc発生時の一般化行動についてはほとんど研究されていない。
特に、tptにおける一般化改善の重要な現象は、経験的観察に留まり、厳密な理論的説明を欠いている。
本稿では,TPT中におけるCEの最小化とマルチクラスSVMの接続を確立するとともに,電車の精度が100%に達した後も,継続トレーニングがテストセットの精度向上につながる理由を理論的に説明し,マルチクラスマージン一般化境界を導出する。
さらに, モデルがNCに到達し, 同様の最適化性能を示すにもかかわらず, 単純なETFにおけるラベルと特徴のアライメントの相違により, 一般化の度合いが変化する可能性が示唆された。
この新たに発見された性質を「非保存的一般化」と呼ぶ。
実験では,理論的な結果から示唆される指標を検証するための経験的観察も提供する。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - A Neural Collapse Perspective on Feature Evolution in Graph Neural
Networks [44.31777384413466]
グラフニューラルネットワーク(GNN)は、グラフ構造化データの分類タスクでますます人気が高まっている。
本稿では,ノードワイズ分類に着目し,ニューラル崩壊現象のレンズによる特徴進化を考察する。
我々は、「最適」な数学的モデルでさえ、グラフが正確な崩壊を伴う最小値を持つためには厳密な構造条件に従う必要があることを示した。
論文 参考訳(メタデータ) (2023-07-04T23:03:21Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Deep Neural Collapse Is Provably Optimal for the Deep Unconstrained
Features Model [21.79259092920587]
深い制約のない特徴モデルにおいて、二分分類のための一意な大域的最適化は、ディープ・ニューラル・崩壊(DNC)に典型的なすべての特性を示すことを示す。
また, (i) 深部非拘束特徴モデルを勾配降下法により最適化することにより, 得られた解は我々の理論とよく一致し, (ii) 訓練されたネットワークはDNCに適した非拘束特徴を回復することを示した。
論文 参考訳(メタデータ) (2023-05-22T15:51:28Z) - On Provable Benefits of Depth in Training Graph Convolutional Networks [13.713485304798368]
グラフ畳み込みネットワーク(GCN)は、レイヤーの数が増えるにつれて性能低下に悩まされることが知られている。
オーバー・スムーシングの理論的理解とGCNの実用能力の間には相違点があることを論じる。
論文 参考訳(メタデータ) (2021-10-28T14:50:47Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。