論文の概要: Evaluation of Neural Architectures Trained with Square Loss vs
Cross-Entropy in Classification Tasks
- arxiv url: http://arxiv.org/abs/2006.07322v5
- Date: Sat, 23 Oct 2021 00:36:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 02:59:24.610880
- Title: Evaluation of Neural Architectures Trained with Square Loss vs
Cross-Entropy in Classification Tasks
- Title(参考訳): 分類課題における正方形損失とクロスエントロピーを訓練したニューラルアーキテクチャの評価
- Authors: Like Hui and Mikhail Belkin
- Abstract要約: クロスエントロピー損失は、分類タスクの平方損失よりも経験的に優れていると広く信じられている。
これらのニューラルネットワークアーキテクチャは、正方形損失をトレーニングした場合に、相容れないか、より良く機能することを示す。
クロスエントロピーはコンピュータビジョンのタスクに多少の限界があるようだ。
- 参考スコア(独自算出の注目度): 23.538629997497747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern neural architectures for classification tasks are trained using the
cross-entropy loss, which is widely believed to be empirically superior to the
square loss. In this work we provide evidence indicating that this belief may
not be well-founded. We explore several major neural architectures and a range
of standard benchmark datasets for NLP, automatic speech recognition (ASR) and
computer vision tasks to show that these architectures, with the same
hyper-parameter settings as reported in the literature, perform comparably or
better when trained with the square loss, even after equalizing computational
resources. Indeed, we observe that the square loss produces better results in
the dominant majority of NLP and ASR experiments. Cross-entropy appears to have
a slight edge on computer vision tasks.
We argue that there is little compelling empirical or theoretical evidence
indicating a clear-cut advantage to the cross-entropy loss. Indeed, in our
experiments, performance on nearly all non-vision tasks can be improved,
sometimes significantly, by switching to the square loss. Furthermore, training
with square loss appears to be less sensitive to the randomness in
initialization. We posit that training using the square loss for classification
needs to be a part of best practices of modern deep learning on equal footing
with cross-entropy.
- Abstract(参考訳): 分類タスクのための現代のニューラルアーキテクチャは、正方形損失よりも経験上優れていると考えられているクロスエントロピー損失を用いて訓練される。
この研究は、この信念が十分に確立されていないことを示す証拠を提供する。
我々は、NLP、自動音声認識(ASR)、コンピュータビジョンタスクのための様々な標準ベンチマークデータセットを探索し、これらのアーキテクチャが、文献で報告されているのと同じハイパーパラメータ設定で、計算資源を等化した後でも、平方損失で訓練した場合に比較可能かそれ以上の性能を発揮することを示す。
実際,NLPおよびASR実験の圧倒的多数において,2乗損失がより良い結果をもたらすことが観察された。
クロスエントロピーはコンピュータビジョンのタスクに多少の限界があるようだ。
我々は、クロスエントロピー損失に対する明確な利点を示す、説得力のある経験的あるいは理論的証拠はほとんどないと主張している。
実際、私たちの実験では、ほとんどすべての非ビジョンタスクのパフォーマンスは、時には平方損失に切り替えることで改善できます。
さらに、二乗損失のあるトレーニングは初期化のランダム性に敏感でないように見える。
分類のための正方形損失を用いたトレーニングは、クロスエントロピーを伴う均等な基盤に基づく現代ディープラーニングのベストプラクティスの一部である必要がある。
関連論文リスト
- Deep Loss Convexification for Learning Iterative Models [11.36644967267829]
点雲登録のための反復的最近点(ICP)のような反復的手法は、しばしば悪い局所最適性に悩まされる。
我々は,各地真実の周囲に凸景観を形成する学習を提案する。
論文 参考訳(メタデータ) (2024-11-16T01:13:04Z) - Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。
まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。
次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文 参考訳(メタデータ) (2024-10-25T20:50:32Z) - Cut your Losses with Squentropy [19.924900110707284]
ここでは、クロスエントロピー損失と、不正なクラスに対する平均平方損失という2つの項の和である「スカントロピー」損失を提案する。
その結果, スクエントロピーの損失は, 純粋なクロスエントロピーと再スケールした正方形損失の両方において, 分類精度において優れていた。
論文 参考訳(メタデータ) (2023-02-08T09:21:13Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Understanding Square Loss in Training Overparametrized Neural Network
Classifiers [31.319145959402462]
過度にパラメータ化されたニューラルネットワークでどのように機能するかを体系的に検討することにより、分類における二乗損失の理論的理解に寄与する。
クラスが分離可能か否かに応じて2つのケースを考慮する。一般的な非分離可能の場合、誤分類率と校正誤差の両方について、高速収束率が確立される。
結果として得られるマージンはゼロから下界であることが証明され、ロバスト性の理論的な保証を提供する。
論文 参考訳(メタデータ) (2021-12-07T12:12:30Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。
最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。
実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文 参考訳(メタデータ) (2021-09-12T23:14:06Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance
Disparity Estimation [51.17232267143098]
ステレオ画像から3次元物体を検出するための新しいシステムDisp R-CNNを提案する。
我々は、LiDAR点雲を必要とせずに、統計的形状モデルを用いて、密度の異なる擬似地下構造を生成する。
KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。
論文 参考訳(メタデータ) (2020-04-07T17:48:45Z) - Avoiding Spurious Local Minima in Deep Quadratic Networks [0.0]
ニューラルアクティベーション機能を持つネットワークにおける平均2乗非線形誤差の景観を特徴付ける。
2次アクティベーションを持つ深層ニューラルネットワークは、類似した景観特性の恩恵を受けることが証明された。
論文 参考訳(メタデータ) (2019-12-31T22:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。