論文の概要: Are All Losses Created Equal: A Neural Collapse Perspective
- arxiv url: http://arxiv.org/abs/2210.02192v1
- Date: Tue, 4 Oct 2022 00:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:51:39.031380
- Title: Are All Losses Created Equal: A Neural Collapse Perspective
- Title(参考訳): すべての損失は平等である:ニューラル・クラッシュ・パースペクティブ
- Authors: Jinxin Zhou, Chong You, Xiao Li, Kangning Liu, Sheng Liu, Qing Qu,
Zhihui Zhu
- Abstract要約: クロスエントロピー(CE)は、分類タスクのためにディープニューラルネットワークを訓練する最も一般的な損失である。
本研究では,一般的に使用されているラベルスムーシング (LS) や焦点損失 (FL) を含む広い範囲の損失関数がニューラル・コラプスを示すことを,グローバル・ソリューションとランドスケープ・アナリティクスを通じて示す。
- 参考スコア(独自算出の注目度): 36.0354919583995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While cross entropy (CE) is the most commonly used loss to train deep neural
networks for classification tasks, many alternative losses have been developed
to obtain better empirical performance. Among them, which one is the best to
use is still a mystery, because there seem to be multiple factors affecting the
answer, such as properties of the dataset, the choice of network architecture,
and so on. This paper studies the choice of loss function by examining the
last-layer features of deep networks, drawing inspiration from a recent line
work showing that the global optimal solution of CE and mean-square-error (MSE)
losses exhibits a Neural Collapse phenomenon. That is, for sufficiently large
networks trained until convergence, (i) all features of the same class collapse
to the corresponding class mean and (ii) the means associated with different
classes are in a configuration where their pairwise distances are all equal and
maximized. We extend such results and show through global solution and
landscape analyses that a broad family of loss functions including commonly
used label smoothing (LS) and focal loss (FL) exhibits Neural Collapse. Hence,
all relevant losses(i.e., CE, LS, FL, MSE) produce equivalent features on
training data. Based on the unconstrained feature model assumption, we provide
either the global landscape analysis for LS loss or the local landscape
analysis for FL loss and show that the (only!) global minimizers are neural
collapse solutions, while all other critical points are strict saddles whose
Hessian exhibit negative curvature directions either in the global scope for LS
loss or in the local scope for FL loss near the optimal solution. The
experiments further show that Neural Collapse features obtained from all
relevant losses lead to largely identical performance on test data as well,
provided that the network is sufficiently large and trained until convergence.
- Abstract(参考訳): クロスエントロピー(CE)は、分類タスクのためにディープニューラルネットワークを訓練するのに最も一般的に使用される損失であるが、より優れた経験的性能を得るために多くの代替的な損失が開発された。
それは、データセットの特性、ネットワークアーキテクチャの選択など、その答えに影響を及ぼす複数の要因があるように見えるからです。
本稿では,CEの最適解と平均二乗誤差(MSE)損失がニューラル崩壊現象を示すことを示す最近のラインワークからインスピレーションを得て,ディープネットワークの最終層の特徴を調べることにより,損失関数の選択について検討する。
つまり、十分に大きなネットワークが収束するまで訓練されるということです。
(i)同じクラスのすべての特徴が対応するクラス平均に崩壊し、
(ii)異なるクラスに関連する手段は、ペアワイズ距離が全て等しく最大化された構成にある。
これらの結果を拡張し,大域的解法と景観解析を通して,一般的に使用されているラベルスムーシング (LS) や焦点損失 (FL) を含む幅広い損失関数がニューラル崩壊を示すことを示す。
したがって、関連するすべての損失(CE、LS、FL、MSE)は、トレーニングデータに等価な特徴をもたらす。
制約のない特徴モデル仮定に基づいて、LS損失のグローバルランドスケープ解析またはFL損失のローカルランドスケープ解析を行い、(ただ!)大域最小化器が神経崩壊解であることを示し、他のすべての臨界点は、LS損失のグローバルスコープまたは最適解の近くのFL損失のローカルスコープにおいて負の曲率方向を示す厳密なサドルであることを示す。
実験により、関連するすべての損失から得られた神経崩壊機能は、テストデータ上でもほぼ同じパフォーマンスをもたらすことが示され、ネットワークが十分に大きく、収束するまで訓練されることが示されている。
関連論文リスト
- Supervised Contrastive Representation Learning: Landscape Analysis with
Unconstrained Features [33.703796571991745]
最近の研究では、ゼロトレーニングを超えて訓練された過度パラメータ化されたディープニューラルネットワークが、最終層に特徴的な構造パターンを示すことが明らかになっている。
これらの結果から,これらのネットワークにおける最終層出力はクラス内変動が最小限であることがわかった。
論文 参考訳(メタデータ) (2024-02-29T06:02:45Z) - Multi-stage feature decorrelation constraints for improving CNN
classification performance [14.09469656684143]
本稿では,CNNのためのマルチステージ機能劣化損失(MFD Loss)を提案する。
MFDロスは有効な特徴を洗練し、全ての段階における特徴の相関を制限することによって情報の冗長性をなくす。
単一のSoftmax Loss教師付き学習と比較して、いくつかの典型的なCNNでよく使われるデータセットの実験は、Softmax Loss+MFD Lossの分類性能が著しく優れていることを証明している。
論文 参考訳(メタデータ) (2023-08-24T16:00:01Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On the Optimization Landscape of Neural Collapse under MSE Loss: Global
Optimality with Unconstrained Features [38.05002597295796]
簡易等角密閉フレーム(ETF)の頂点に崩壊する崩壊層
興味深い経験的現象が、タスクのためのディープニューラルネットワークの最後の層と特徴で広く観測されている。
論文 参考訳(メタデータ) (2022-03-02T17:00:18Z) - Taxonomizing local versus global structure in neural network loss
landscapes [60.206524503782006]
ロスランドスケープが世界規模で良好に接続されている場合, 最適なテスト精度が得られることを示す。
また、モデルが小さい場合や、品質の低いデータに訓練された場合、世界規模で接続の不十分なランドスケープが生じる可能性があることも示しています。
論文 参考訳(メタデータ) (2021-07-23T13:37:14Z) - A Geometric Analysis of Neural Collapse with Unconstrained Features [40.66585948844492]
Neural;Collapse$の最初のグローバル最適化ランドスケープ分析を提供します。
この現象は、トレーニングの終末期におけるニューラルネットワークのラスト層分類器と特徴に現れる。
論文 参考訳(メタデータ) (2021-05-06T00:00:50Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - $\sigma^2$R Loss: a Weighted Loss by Multiplicative Factors using
Sigmoidal Functions [0.9569316316728905]
我々は,二乗還元損失(sigma2$R損失)と呼ばれる新たな損失関数を導入する。
我々の損失は明らかな直観と幾何学的解釈を持ち、我々の提案の有効性を実験によって実証する。
論文 参考訳(メタデータ) (2020-09-18T12:34:40Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。