論文の概要: Generalized Kullback-Leibler Divergence Loss
- arxiv url: http://arxiv.org/abs/2503.08038v1
- Date: Tue, 11 Mar 2025 04:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:20.290689
- Title: Generalized Kullback-Leibler Divergence Loss
- Title(参考訳): 一般化Kullback-Leibler分散損失
- Authors: Jiequan Cui, Beier Zhu, Qingshan Xu, Zhuotao Tian, Xiaojuan Qi, Bei Yu, Hanwang Zhang, Richang Hong,
- Abstract要約: 我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
DKL損失の非結合構造により,我々は改善すべき2つの領域を特定した。
- 参考スコア(独自算出の注目度): 105.66549870868971
- License:
- Abstract: In this paper, we delve deeper into the Kullback-Leibler (KL) Divergence loss and mathematically prove that it is equivalent to the Decoupled Kullback-Leibler (DKL) Divergence loss that consists of (1) a weighted Mean Square Error (wMSE) loss and (2) a Cross-Entropy loss incorporating soft labels. Thanks to the decoupled structure of DKL loss, we have identified two areas for improvement. Firstly, we address the limitation of KL loss in scenarios like knowledge distillation by breaking its asymmetric optimization property along with a smoother weight function. This modification effectively alleviates convergence challenges in optimization, particularly for classes with high predicted scores in soft labels. Secondly, we introduce class-wise global information into KL/DKL to reduce bias arising from individual samples. With these two enhancements, we derive the Generalized Kullback-Leibler (GKL) Divergence loss and evaluate its effectiveness by conducting experiments on CIFAR-10/100, ImageNet, and vision-language datasets, focusing on adversarial training, and knowledge distillation tasks. Specifically, we achieve new state-of-the-art adversarial robustness on the public leaderboard -- RobustBench and competitive knowledge distillation performance across CIFAR/ImageNet models and CLIP models, demonstrating the substantial practical merits. Our code is available at https://github.com/jiequancui/DKL.
- Abstract(参考訳): 本稿では,(1)重み付き平均正方形誤差(wMSE)と(2)ソフトラベルを含むクロスエントロピー損失(クロスエントロピー損失)からなるDKL(Decoupled Kullback-Leibler)の分散損失と等価であることを数学的に証明する。
DKL損失の非結合構造により,我々は改善すべき2つの領域を特定した。
まず、非対称な最適化特性とより滑らかな重み関数を破り、知識蒸留のようなシナリオにおけるKL損失の制限に対処する。
この修正は、特にソフトラベルの高い予測スコアを持つクラスにおいて、最適化における収束の課題を効果的に軽減する。
次に,KL/DKLにクラスワイドグローバル情報を導入し,個々のサンプルから生じるバイアスを低減する。
CIFAR-10/100, ImageNet, および視覚言語データセットの実験を行い, 対向訓練, 知識蒸留タスクに焦点をあてることにより, 一般化KKL(Generalized Kullback-Leibler)の分散損失を導出し, その有効性を評価する。
具体的には, CIFAR/ImageNetモデルとCLIPモデル間でのロバストベンチと競争知識蒸留性能を両立させ, 実用上のメリットを実証する。
私たちのコードはhttps://github.com/jiequancui/DKL.comで利用可能です。
関連論文リスト
- Kendall's $τ$ Coefficient for Logits Distillation [33.77389987117822]
ランクケンドール知識蒸留(RKKD)と呼ばれるKendallの$tau$係数に基づくランキング損失を提案する。
RKKDは、学生ロジットのチャネル値の順序を制約することにより、より小さな評価チャネルへの注意のバランスをとる。
我々のRKKDは, 多様な知識蒸留ベースラインの性能を向上し, 複数の教師と学生のアーキテクチャの組み合わせで幅広い改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-09-26T13:21:02Z) - EnsLoss: Stochastic Calibrated Loss Ensembles for Preventing Overfitting in Classification [1.3778851745408134]
経験的リスク最小化フレームワーク内で損失関数を結合する新しいアンサンブル手法,すなわちEnsLossを提案する。
まず、損失のCC条件を損失導関数に変換し、明示的な損失関数の必要性を回避した。
理論的には、我々のアプローチの統計的一貫性を確立し、その利点に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-09-02T02:40:42Z) - OrCo: Towards Better Generalization via Orthogonality and Contrast for Few-Shot Class-Incremental Learning [57.43911113915546]
FSCIL(Few-Shot Class-Incremental Learning)は、問題空間を限られたデータで拡張するパラダイムを導入する。
FSCILの手法は、データが漸進的に到着するにつれて、破滅的な忘れ込みの課題に直面している。
表現空間における特徴の直交性と対照的な学習という2つの基本原理に基づいて構築されたOrCoフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T13:30:48Z) - Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文 参考訳(メタデータ) (2024-02-27T01:13:58Z) - Mitigating Privacy Risk in Membership Inference by Convex-Concave Loss [16.399746814823025]
機械学習モデルは、トレーニングセットにサンプルがあるかどうかを推測することを目的とした、メンバシップ推論攻撃(MIA)の影響を受けやすい。
既存の作業では、勾配上昇を利用してトレーニングデータの損失分散を拡大し、プライバシリスクを軽減する。
本稿では,勾配降下によるトレーニング損失分布の分散化を可能にする新しい手法であるConvex-Concave Lossを提案する。
論文 参考訳(メタデータ) (2024-02-08T07:14:17Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - Label Distributionally Robust Losses for Multi-class Classification:
Consistency, Robustness and Adaptivity [55.29408396918968]
多クラス分類のためのラベル分布ロバスト(LDR)損失という損失関数群について検討した。
我々の貢献は、多クラス分類のためのLDR損失のトップ$kの一貫性を確立することによって、一貫性と堅牢性の両方を含んでいる。
本稿では,各インスタンスのクラスラベルの雑音度に個別化温度パラメータを自動的に適応させる適応型LDR損失を提案する。
論文 参考訳(メタデータ) (2021-12-30T00:27:30Z) - Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in
Knowledge Distillation [9.157410884444312]
知識蒸留(KD)は,効率的なニューラルアーキテクチャを設計するために研究されている。
KL分散損失は,タウ増加時のロジットマッチングと,タウが0。
特にKL分散損失を小さいタウで用いた場合, ラベルノイズが軽減される。
論文 参考訳(メタデータ) (2021-05-19T04:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。