論文の概要: Cross Entropy versus Label Smoothing: A Neural Collapse Perspective
- arxiv url: http://arxiv.org/abs/2402.03979v2
- Date: Wed, 7 Feb 2024 03:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 11:47:47.202505
- Title: Cross Entropy versus Label Smoothing: A Neural Collapse Perspective
- Title(参考訳): クロスエントロピーとラベル平滑化:神経崩壊の展望
- Authors: Li Guo, Keith Ross, Zifan Zhao, George Andriopoulos, Shuyang Ling,
Yufeng Xu, Zixuan Dong
- Abstract要約: 本稿では,強力な経験的・理論的枠組みであるNeural Collapse(NC)の観点から,スムースなラベル付けについて検討する。
まず、ラベルの平滑化で訓練されたモデルは、神経崩壊解に早く収束し、より強力な神経崩壊レベルに達することを実証的に示す。
- 参考スコア(独自算出の注目度): 4.099188602987316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Label smoothing loss is a widely adopted technique to mitigate overfitting in
deep neural networks. This paper studies label smoothing from the perspective
of Neural Collapse (NC), a powerful empirical and theoretical framework which
characterizes model behavior during the terminal phase of training. We first
show empirically that models trained with label smoothing converge faster to
neural collapse solutions and attain a stronger level of neural collapse.
Additionally, we show that at the same level of NC1, models under label
smoothing loss exhibit intensified NC2. These findings provide valuable
insights into the performance benefits and enhanced model calibration under
label smoothing loss. We then leverage the unconstrained feature model to
derive closed-form solutions for the global minimizers for both loss functions
and further demonstrate that models under label smoothing have a lower
conditioning number and, therefore, theoretically converge faster. Our study,
combining empirical evidence and theoretical results, not only provides nuanced
insights into the differences between label smoothing and cross-entropy losses,
but also serves as an example of how the powerful neural collapse framework can
be used to improve our understanding of DNNs.
- Abstract(参考訳): ラベル平滑化損失は、ディープニューラルネットワークの過剰フィッティングを軽減するために広く採用されているテクニックである。
本稿では,学習末期のモデル動作を特徴付ける強力な経験的・理論的枠組みであるNeural Collapse(NC)の観点から,スムースなラベル付けについて検討する。
まず,ラベル平滑化を訓練したモデルがより早く神経崩壊解に収束し,より強い神経崩壊レベルに達することを示す。
さらに,同レベルのnc1ではラベル平滑化損失モデルがnc2の増大を示すことを示した。
これらの知見は, ラベル平滑化損失下での性能向上とモデルキャリブレーションの強化に有意義な洞察を与える。
次に、両損失関数に対する大域的最小化に対する閉形式解を導出するために、制約のない特徴モデルを活用し、さらにラベル平滑化下のモデルは条件数が少なく、理論上はより高速に収束することを示す。
実験的な証拠と理論的な結果を組み合わせることで、ラベルの平滑化とクロスエントロピーの損失の違いに関する微妙な洞察を提供するだけでなく、DNNの理解を改善するために強力な神経崩壊フレームワークをどのように利用できるかの例としても役立ちます。
関連論文リスト
- Wide Neural Networks Trained with Weight Decay Provably Exhibit Neural Collapse [32.06666853127924]
収束時のディープニューラルネットワーク(DNN)は、ニューラル崩壊と呼ばれる対称的な幾何学構造を通して、最終層のトレーニングデータを一貫して表現している。
ここでは、垂直層の特徴は自由変数であり、モデルがデータに依存しないため、トレーニングをキャプチャする能力に疑問を呈する。
まず, (i) 線形層の低トレーニング誤差とバランス性, (ii) 線形部の前の特徴の有界条件付けを前提とした神経崩壊に関する一般的な保証を示す。
論文 参考訳(メタデータ) (2024-10-07T10:16:40Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Towards Demystifying the Generalization Behaviors When Neural Collapse
Emerges [132.62934175555145]
Neural Collapse(NC)は、トレーニング末期(TPT)におけるディープニューラルネットワークのよく知られた現象である
本稿では,列車の精度が100%に達した後も,継続訓練がテストセットの精度向上に繋がる理由を理論的に説明する。
我々はこの新たに発見された性質を「非保守的一般化」と呼ぶ。
論文 参考訳(メタデータ) (2023-10-12T14:29:02Z) - Joint Edge-Model Sparse Learning is Provably Efficient for Graph Neural
Networks [89.28881869440433]
本稿では,グラフニューラルネットワーク(GNN)における結合エッジモデルスパース学習の理論的特徴について述べる。
解析学的には、重要なノードをサンプリングし、最小のマグニチュードでプルーニングニューロンをサンプリングすることで、サンプルの複雑さを減らし、テスト精度を損なうことなく収束を改善することができる。
論文 参考訳(メタデータ) (2023-02-06T16:54:20Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Neural Clamping: Joint Input Perturbation and Temperature Scaling for Neural Network Calibration [62.4971588282174]
我々はニューラルクランプ法と呼ばれる新しい後処理キャリブレーション法を提案する。
実験の結果,Neural Clampingは最先端の処理後のキャリブレーション法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-23T14:18:39Z) - Flatten the Curve: Efficiently Training Low-Curvature Neural Networks [16.129787241917835]
非線型性の度合いをエンコードする数学的量である曲率を考える。
標準モデルよりも大幅に低い曲率が得られる低曲率ニューラルネットワーク(LCNN)を実証する。
私たちのアプローチは使いやすく、既存のニューラルネットワークモデルに簡単に組み込むことができます。
論文 参考訳(メタデータ) (2022-06-14T20:09:04Z) - On the Optimization Landscape of Neural Collapse under MSE Loss: Global
Optimality with Unconstrained Features [38.05002597295796]
簡易等角密閉フレーム(ETF)の頂点に崩壊する崩壊層
興味深い経験的現象が、タスクのためのディープニューラルネットワークの最後の層と特徴で広く観測されている。
論文 参考訳(メタデータ) (2022-03-02T17:00:18Z) - Benign Overfitting in Two-layer Convolutional Neural Networks [90.75603889605043]
2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
論文 参考訳(メタデータ) (2022-02-14T07:45:51Z) - Understanding Square Loss in Training Overparametrized Neural Network
Classifiers [31.319145959402462]
過度にパラメータ化されたニューラルネットワークでどのように機能するかを体系的に検討することにより、分類における二乗損失の理論的理解に寄与する。
クラスが分離可能か否かに応じて2つのケースを考慮する。一般的な非分離可能の場合、誤分類率と校正誤差の両方について、高速収束率が確立される。
結果として得られるマージンはゼロから下界であることが証明され、ロバスト性の理論的な保証を提供する。
論文 参考訳(メタデータ) (2021-12-07T12:12:30Z) - An Unconstrained Layer-Peeled Perspective on Neural Collapse [20.75423143311858]
非拘束層列モデル (ULPM) と呼ばれるサロゲートモデルを導入する。
このモデル上の勾配流は、その大域的最小化器における神経崩壊を示す最小ノルム分離問題の臨界点に収束することを示す。
また,本研究の結果は,実世界のタスクにおけるニューラルネットワークのトレーニングにおいて,明示的な正規化や重み劣化が使用されない場合にも有効であることを示す。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。