論文の概要: Dual-Head Knowledge Distillation: Enhancing Logits Utilization with an Auxiliary Head
- arxiv url: http://arxiv.org/abs/2411.08937v1
- Date: Wed, 13 Nov 2024 12:33:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:24:58.087690
- Title: Dual-Head Knowledge Distillation: Enhancing Logits Utilization with an Auxiliary Head
- Title(参考訳): Dual-Head Knowledge Distillation:Auxiliary Headによるログ利用の促進
- Authors: Penghui Yang, Chen-Chen Zong, Sheng-Jun Huang, Lei Feng, Bo An,
- Abstract要約: 本稿では,広く使用されている確率レベル損失関数の補足として,ロジットレベル損失関数を導入する。
新たに導入されたロジットレベルの損失と,それ以前の確率レベルの損失の合計は,性能劣化につながる。
本稿では, 線形分類器を2つの分類ヘッドに分割し, 損失の異なる2つの分類ヘッドに分割する, 二重知識蒸留法を提案する。
- 参考スコア(独自算出の注目度): 38.898038672237746
- License:
- Abstract: Traditional knowledge distillation focuses on aligning the student's predicted probabilities with both ground-truth labels and the teacher's predicted probabilities. However, the transition to predicted probabilities from logits would obscure certain indispensable information. To address this issue, it is intuitive to additionally introduce a logit-level loss function as a supplement to the widely used probability-level loss function, for exploiting the latent information of logits. Unfortunately, we empirically find that the amalgamation of the newly introduced logit-level loss and the previous probability-level loss will lead to performance degeneration, even trailing behind the performance of employing either loss in isolation. We attribute this phenomenon to the collapse of the classification head, which is verified by our theoretical analysis based on the neural collapse theory. Specifically, the gradients of the two loss functions exhibit contradictions in the linear classifier yet display no such conflict within the backbone. Drawing from the theoretical analysis, we propose a novel method called dual-head knowledge distillation, which partitions the linear classifier into two classification heads responsible for different losses, thereby preserving the beneficial effects of both losses on the backbone while eliminating adverse influences on the classification head. Extensive experiments validate that our method can effectively exploit the information inside the logits and achieve superior performance against state-of-the-art counterparts.
- Abstract(参考訳): 伝統的な知識蒸留は、学生の予測される確率と、教師の予測される確率とを一致させることに焦点を当てている。
しかし、ロジットから予測される確率への移行は、ある種の必然的な情報を明らかにするだろう。
この問題に対処するために、ロジットの潜伏情報を利用するために、広く使われている確率レベル損失関数の補足としてロジットレベル損失関数を導入する直感的な方法を提案する。
残念なことに、新たに導入されたロジットレベルの損失とそれ以前の確率レベルの損失の合併がパフォーマンスの劣化につながることを実証的に見出した。
この現象は, 神経崩壊理論に基づく理論的解析によって検証された分類ヘッドの崩壊に起因している。
具体的には、2つの損失関数の勾配は線形分類器の矛盾を示すが、バックボーン内ではそのような矛盾は示さない。
理論的解析から, 線形分類器を2つの分類ヘッドに分割し, 双方の損失が背骨に与える影響を抑えつつ, 分類ヘッドに悪影響を及ぼすことなく保存する, 二重知識蒸留法を提案する。
大規模な実験により,本手法はロジット内の情報を効果的に活用し,最先端のロジットに対して優れた性能が得られることが検証された。
関連論文リスト
- LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization [56.67706781191521]
敵は、学習者に未知の任意の数kの損失関数を破損させることで、外れ値を導入することができる。
我々は,任意の数kで損失関数を破損させることで,敵が外乱を発生させることができる,頑健なオンラインラウンド最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T17:08:31Z) - Robust Loss Functions for Training Decision Trees with Noisy Labels [4.795403008763752]
我々は、頑健な学習アルゴリズムに繋がる損失関数に着目し、ノイズの多いラベル付きデータを用いて決定木を訓練することを検討する。
まず、決定木学習の文脈において、既存の損失関数のロバスト性に関する新しい理論的知見を提供する。
第2に,分散損失と呼ばれるロバストな損失関数を構築するためのフレームワークを導入する。
論文 参考訳(メタデータ) (2023-12-20T11:27:46Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Robust Contrastive Learning With Theory Guarantee [25.57187964518637]
コントラスト学習(CL)は,ラベル情報なしで意味のある特徴を抽出できる自己指導型学習パラダイムである。
我々の研究は厳密な理論を発展させ、教師なし損失のどの成分が教師なし損失の堅牢な改善に役立つかを識別する。
論文 参考訳(メタデータ) (2023-11-16T08:39:58Z) - Studying the Interplay between Information Loss and Operation Loss in
Representations for Classification [15.369895042965261]
情報理論の手法は、学習と意思決定のための特徴の設計において広く採用されている。
本研究は,学習における操作的十分性を実現するために,情報十分性という代替概念を採用することができることを示す。
論文 参考訳(メタデータ) (2021-12-30T23:17:05Z) - Understanding Square Loss in Training Overparametrized Neural Network
Classifiers [31.319145959402462]
過度にパラメータ化されたニューラルネットワークでどのように機能するかを体系的に検討することにより、分類における二乗損失の理論的理解に寄与する。
クラスが分離可能か否かに応じて2つのケースを考慮する。一般的な非分離可能の場合、誤分類率と校正誤差の両方について、高速収束率が確立される。
結果として得られるマージンはゼロから下界であることが証明され、ロバスト性の理論的な保証を提供する。
論文 参考訳(メタデータ) (2021-12-07T12:12:30Z) - On Codomain Separability and Label Inference from (Noisy) Loss Functions [11.780563744330038]
本稿では,任意の(ノイズの多い)損失関数値からラベル推論が可能となる必要かつ十分な条件を検討するために,コドメイン分離性の概念を導入する。
一般的なアクティベーション機能を持つマルチクラスクロスエントロピーや,ブレグマンの発散に基づく損失を含む,多くの一般的な損失関数に対して,任意の雑音レベルに対するラベル推論攻撃を設計可能であることを示す。
論文 参考訳(メタデータ) (2021-07-07T05:29:53Z) - Leveraged Weighted Loss for Partial Label Learning [64.85763991485652]
部分ラベル学習は、各インスタンスに候補ラベルのセットが割り当てられるデータを扱うが、そのうちの1つだけが真実である。
部分ラベルからの学習に関する多くの方法論の研究にもかかわらず、リスク一貫した性質に関する理論的理解はいまだに欠けている。
本稿では,テキスト重み付き損失(LW)と呼ばれる損失関数のファミリーを提案する。これはまず,部分ラベル上の損失と非部分的な損失とのトレードオフを検討するために,レバレッジパラメータ$beta$を導入する。
論文 参考訳(メタデータ) (2021-06-10T13:25:13Z) - Lower-bounded proper losses for weakly supervised classification [73.974163801142]
本稿では,弱いラベルが与えられた分類の弱い教師付き学習の問題について議論する。
サベージ表現を双対化する教師付き学習における適切な損失を表す表現定理を導出する。
提案手法の有効性を,不適切な損失や非有界損失と比較して実験的に実証した。
論文 参考訳(メタデータ) (2021-03-04T08:47:07Z) - A Symmetric Loss Perspective of Reliable Machine Learning [87.68601212686086]
平衡誤差率 (BER) の最小化において, 対称損失が破損ラベルからのロバストな分類をいかに生み出すかを検討する。
我々は、関連するキーワードからのみ学習したい問題において、AUC手法が自然言語処理にどのように役立つかを実証する。
論文 参考訳(メタデータ) (2021-01-05T06:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。