論文の概要: Regularizing cross entropy loss via minimum entropy and K-L divergence
- arxiv url: http://arxiv.org/abs/2501.13709v1
- Date: Thu, 23 Jan 2025 14:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:53.067784
- Title: Regularizing cross entropy loss via minimum entropy and K-L divergence
- Title(参考訳): 最小エントロピーとK-L分散による正則化クロスエントロピー損失
- Authors: Abdulrahman Oladipupo Ibraheem,
- Abstract要約: 深層学習における2つの新しい損失関数を導入した。
2つの損失関数の最初のものは混合エントロピー損失(略してMIX-ENT)と呼ばれる。
後者は最小エントロピー正規化クロスエントロピー損失(MIN-ENT略)と呼ばれる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: I introduce two novel loss functions for classification in deep learning. The two loss functions extend standard cross entropy loss by regularizing it with minimum entropy and Kullback-Leibler (K-L) divergence terms. The first of the two novel loss functions is termed mixed entropy loss (MIX-ENT for short), while the second one is termed minimum entropy regularized cross-entropy loss (MIN-ENT for short). The MIX-ENT function introduces a regularizer that can be shown to be equivalent to the sum of a minimum entropy term and a K-L divergence term. However, it should be noted that the K-L divergence term here is different from that in the standard cross-entropy loss function, in the sense that it swaps the roles of the target probability and the hypothesis probability. The MIN-ENT function simply adds a minimum entropy regularizer to the standard cross entropy loss function. In both MIX-ENT and MIN-ENT, the minimum entropy regularizer minimizes the entropy of the hypothesis probability distribution which is output by the neural network. Experiments on the EMNIST-Letters dataset shows that my implementation of MIX-ENT and MIN-ENT lets the VGG model climb from its previous 3rd position on the paperswithcode leaderboard to reach the 2nd position on the leaderboard, outperforming the Spinal-VGG model in so doing. Specifically, using standard cross-entropy, VGG achieves 95.86% while Spinal-VGG achieves 95.88% classification accuracies, whereas using VGG (without Spinal-VGG) our MIN-ENT achieved 95.933%, while our MIX-ENT achieved 95.927% accuracies. The pre-trained models for both MIX-ENT and MIN-ENT are at https://github.com/rahmanoladi/minimum entropy project.
- Abstract(参考訳): 深層学習における2つの新しい損失関数を導入した。
2つの損失関数は、最小エントロピーとクルバック・リーバー(K-L)の発散項で正規化することにより、標準的なクロスエントロピー損失を拡張する。
2つの新しい損失関数のうちの1つは混合エントロピー損失(MIX-ENT、略してMIX-ENT)と呼ばれ、もう1つは最小エントロピー正規化クロスエントロピー損失(MIN-ENT、略してMIN-ENT)と呼ばれる。
MIX-ENT関数は、最小エントロピー項とK-L発散項の和と等価であることを示す正則化子を導入する。
しかし、ここでの K-L の発散項は、目標確率と仮説確率の役割を交換するという意味で、標準的なクロスエントロピー損失関数とは異なることに注意する必要がある。
MIN-ENT関数は、標準クロスエントロピー損失関数に最小エントロピー正規化器を単に加える。
MIX-ENTとMIN-ENTの両方において、最小エントロピー正規化器は、ニューラルネットワークによって出力される仮説確率分布のエントロピーを最小化する。
EMNIST-Lettersデータセットの実験では、私のMIX-ENTとMIN-ENTの実装により、VGGモデルは、ペーパーウィキコードリーダーボードで前3位から上昇し、リーダーボードで2位まで上昇し、Spinal-VGGモデルよりも優れています。
具体的には、標準的なクロスエントロピーを用いて、VGGは95.86%、Spinal-VGGは95.88%、VGGは(Spinal-VGGなしで)、MIN-ENTは95.933%、MIX-ENTは95.927%である。
MIX-ENTとMIN-ENTのトレーニング済みモデルはhttps://github.com/rahmanoladi/minimum entropyプロジェクトにある。
関連論文リスト
- Dimension reduction and the gradient flow of relative entropy [0.0]
次元減少は科学で広く用いられ、高次元データを低次元空間にマッピングする。
本研究では,近傍埋め込み(SNE)技術の基礎となる基本的な数学的モデルと,その一般的な変種であるt-SNEについて検討する。
目的は、これらの点を最適な方法で低次元にマッピングし、類似点がより近いようにすることである。
論文 参考訳(メタデータ) (2024-09-25T14:23:04Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Equipping Diffusion Models with Differentiable Spatial Entropy for Low-Light Image Enhancement [7.302792947244082]
本研究では,決定論的画素間比較から統計的視点へ焦点を移す新しい手法を提案する。
中心となる考え方は、損失関数に空間エントロピーを導入して、予測と目標の分布差を測定することである。
具体的には,拡散モデルにエントロピーを装備し,L1ベースノイズマッチング損失よりも高精度で知覚品質の向上を図っている。
論文 参考訳(メタデータ) (2024-04-15T12:35:10Z) - Optimal minimax rate of learning interaction kernels [7.329333373512536]
広帯域の交換可能な分布に対して最適な収束率を得るための最小二乗推定器(tLSE)を導入する。
以上の結果から, 大きな試料限界の逆問題が保たれた場合, 左テール確率はバイアス分散トレードオフを変化させないことがわかった。
論文 参考訳(メタデータ) (2023-11-28T15:01:58Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - STAR Loss: Reducing Semantic Ambiguity in Facial Landmark Detection [80.04000067312428]
本稿では,意味的あいまいさの特性を利用した自己適応型あいまいさ低減(STAR)の損失を提案する。
意味的あいまいさは異方性予測分布をもたらすことが分かり、予測分布を用いて意味的あいまいさを表現する。
また,分布の異常変化とモデルの初期収束を回避できる2種類の固有値制限法を提案する。
論文 参考訳(メタデータ) (2023-06-05T10:33:25Z) - Cut your Losses with Squentropy [19.924900110707284]
ここでは、クロスエントロピー損失と、不正なクラスに対する平均平方損失という2つの項の和である「スカントロピー」損失を提案する。
その結果, スクエントロピーの損失は, 純粋なクロスエントロピーと再スケールした正方形損失の両方において, 分類精度において優れていた。
論文 参考訳(メタデータ) (2023-02-08T09:21:13Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - Gradient flows and randomised thresholding: sparse inversion and
classification [0.0]
スパースインバージョンと分類問題は、現代のデータサイエンスとイメージングにおいて至るところに存在している。
分類において、例えば、データの忠実度項と非滑らかなギンズバーグ-ランダウエネルギーの和を考える。
標準(サブ)勾配降下法はそのような問題にアプローチする際に非効率であることが示されている。
論文 参考訳(メタデータ) (2022-03-22T09:21:14Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - Generalized Entropy Regularization or: There's Nothing Special about
Label Smoothing [83.78668073898001]
本稿では, ラベル平滑化を含むエントロピー正則化器群を紹介する。
モデル性能のばらつきはモデルのエントロピーによって大きく説明できる。
我々は,他のエントロピー正規化手法の使用を推奨する。
論文 参考訳(メタデータ) (2020-05-02T12:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。