論文の概要: Understanding Square Loss in Training Overparametrized Neural Network
Classifiers
- arxiv url: http://arxiv.org/abs/2112.03657v1
- Date: Tue, 7 Dec 2021 12:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 13:50:48.244198
- Title: Understanding Square Loss in Training Overparametrized Neural Network
Classifiers
- Title(参考訳): 過パラメータニューラルネットワーク分類器の学習における正方形損失の理解
- Authors: Tianyang Hu, Jun Wang, Wenjia Wang, Zhenguo Li
- Abstract要約: 過度にパラメータ化されたニューラルネットワークでどのように機能するかを体系的に検討することにより、分類における二乗損失の理論的理解に寄与する。
クラスが分離可能か否かに応じて2つのケースを考慮する。一般的な非分離可能の場合、誤分類率と校正誤差の両方について、高速収束率が確立される。
結果として得られるマージンはゼロから下界であることが証明され、ロバスト性の理論的な保証を提供する。
- 参考スコア(独自算出の注目度): 31.319145959402462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has achieved many breakthroughs in modern classification tasks.
Numerous architectures have been proposed for different data structures but
when it comes to the loss function, the cross-entropy loss is the predominant
choice. Recently, several alternative losses have seen revived interests for
deep classifiers. In particular, empirical evidence seems to promote square
loss but a theoretical justification is still lacking. In this work, we
contribute to the theoretical understanding of square loss in classification by
systematically investigating how it performs for overparametrized neural
networks in the neural tangent kernel (NTK) regime. Interesting properties
regarding the generalization error, robustness, and calibration error are
revealed. We consider two cases, according to whether classes are separable or
not. In the general non-separable case, fast convergence rate is established
for both misclassification rate and calibration error. When classes are
separable, the misclassification rate improves to be exponentially fast.
Further, the resulting margin is proven to be lower bounded away from zero,
providing theoretical guarantees for robustness. We expect our findings to hold
beyond the NTK regime and translate to practical settings. To this end, we
conduct extensive empirical studies on practical neural networks, demonstrating
the effectiveness of square loss in both synthetic low-dimensional data and
real image data. Comparing to cross-entropy, square loss has comparable
generalization error but noticeable advantages in robustness and model
calibration.
- Abstract(参考訳): ディープラーニングは現代の分類タスクで多くのブレークスルーを達成した。
異なるデータ構造に対して多数のアーキテクチャが提案されているが、損失関数に関しては、クロスエントロピー損失が主な選択肢である。
近年では、深層分類器に対する関心が復活している。
特に、経験的証拠は正方形損失を助長しているように見えるが、理論的正当性はまだ欠けている。
本研究では,神経接核(ntk)領域における過パラメータニューラルネットワークの性能を体系的に検討することにより,分類における正方形損失の理論的理解に寄与する。
一般化誤差、ロバスト性、キャリブレーション誤差に関する興味深い特性を明らかにする。
クラスが分離可能かどうかに応じて2つのケースを考慮する。
一般的な非分離性の場合、誤分類率と校正誤差の両方に対して高速収束速度が確立される。
クラスが分離可能である場合、誤分類率は指数関数的に速くなる。
さらに、結果のマージンはゼロから下界であることが証明され、ロバスト性の理論的な保証を提供する。
NTK体制を超えて,実践的な設定に転換することが期待されている。
そこで本研究では,実画像データと合成低次元データの両方における正方形損失の有効性を実証し,実用ニューラルネットワークの広範な実証実験を行った。
クロスエントロピーと比較すると、正方形損失は一般化誤差に匹敵するが、ロバスト性やモデルのキャリブレーションにおいて顕著な利点がある。
関連論文リスト
- Large Margin Discriminative Loss for Classification [3.3975558777609915]
本稿では,Deep Learning の文脈において,大きなマージンを持つ新たな識別的損失関数を提案する。
この損失は、クラス内コンパクト性とクラス間分離性によって表されるニューラルネットの識別力を高める。
論文 参考訳(メタデータ) (2024-05-28T18:10:45Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Cut your Losses with Squentropy [19.924900110707284]
ここでは、クロスエントロピー損失と、不正なクラスに対する平均平方損失という2つの項の和である「スカントロピー」損失を提案する。
その結果, スクエントロピーの損失は, 純粋なクロスエントロピーと再スケールした正方形損失の両方において, 分類精度において優れていた。
論文 参考訳(メタデータ) (2023-02-08T09:21:13Z) - Prototype-Anchored Learning for Learning with Imperfect Annotations [83.7763875464011]
不完全な注釈付きデータセットからバイアスのない分類モデルを学ぶことは困難である。
本稿では,様々な学習に基づく分類手法に容易に組み込むことができるプロトタイプ・アンコレッド学習法を提案する。
我々は,PALがクラス不均衡学習および耐雑音学習に与える影響を,合成および実世界のデータセットに関する広範な実験により検証した。
論文 参考訳(メタデータ) (2022-06-23T10:25:37Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - $\sigma^2$R Loss: a Weighted Loss by Multiplicative Factors using
Sigmoidal Functions [0.9569316316728905]
我々は,二乗還元損失(sigma2$R損失)と呼ばれる新たな損失関数を導入する。
我々の損失は明らかな直観と幾何学的解釈を持ち、我々の提案の有効性を実験によって実証する。
論文 参考訳(メタデータ) (2020-09-18T12:34:40Z) - Vulnerability Under Adversarial Machine Learning: Bias or Variance? [77.30759061082085]
本研究では,機械学習が訓練された深層ニューラルネットワークのバイアスと分散に与える影響について検討する。
我々の分析は、ディープニューラルネットワークが対向的摂動下で性能が劣っている理由に光を当てている。
本稿では,計算処理の複雑さをよく知られた機械学習手法よりも低く抑えた,新しい逆機械学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-01T00:58:54Z) - Evaluation of Neural Architectures Trained with Square Loss vs
Cross-Entropy in Classification Tasks [23.538629997497747]
クロスエントロピー損失は、分類タスクの平方損失よりも経験的に優れていると広く信じられている。
これらのニューラルネットワークアーキテクチャは、正方形損失をトレーニングした場合に、相容れないか、より良く機能することを示す。
クロスエントロピーはコンピュータビジョンのタスクに多少の限界があるようだ。
論文 参考訳(メタデータ) (2020-06-12T17:00:49Z) - Avoiding Spurious Local Minima in Deep Quadratic Networks [0.0]
ニューラルアクティベーション機能を持つネットワークにおける平均2乗非線形誤差の景観を特徴付ける。
2次アクティベーションを持つ深層ニューラルネットワークは、類似した景観特性の恩恵を受けることが証明された。
論文 参考訳(メタデータ) (2019-12-31T22:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。