論文の概要: PLD: A Choice-Theoretic List-Wise Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2506.12542v2
- Date: Wed, 18 Jun 2025 03:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 13:10:45.354664
- Title: PLD: A Choice-Theoretic List-Wise Knowledge Distillation
- Title(参考訳): PLD: 選択理論に基づくリストワイズ知識蒸留
- Authors: Ejafa Bassam, Dawei Zhu, Kaigui Bian,
- Abstract要約: 我々は,教師のロジットを「価値」スコアと解釈することで,プラケット・ルーシモデルの下で知識蒸留をリキャストする。
そこで我々は,教師モデルがクラスの全ランキングに関する知識を伝達する,重み付きリストレベルのランキング損失であるPlockett-Luce Distillation (PLD)を紹介した。
- 参考スコア(独自算出の注目度): 14.801268227422517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is a model compression technique in which a compact "student" network is trained to replicate the predictive behavior of a larger "teacher" network. In logit-based knowledge distillation it has become the de facto approach to augment cross-entropy with a distillation term. Typically this term is either a KL divergence-matching marginal probabilities or a correlation-based loss capturing intra- and inter-class relationships but in every case it sits as an add-on to cross-entropy with its own weight that must be carefully tuned. In this paper we adopt a choice-theoretic perspective and recast knowledge distillation under the Plackett-Luce model by interpreting teacher logits as "worth" scores. We introduce Plackett-Luce Distillation (PLD), a weighted list-wise ranking loss in which the teacher model transfers knowledge of its full ranking of classes, weighting each ranked choice by its own confidence. PLD directly optimizes a single teacher-optimal ranking of the true label first, followed by the remaining classes in descending teacher confidence, yielding a convex, translation-invariant surrogate that subsumes weighted cross-entropy. Empirically on standard image classification benchmarks, PLD improves Top-1 accuracy by an average of +0.42% over DIST (arXiv:2205.10536) and +1.04% over KD (arXiv:1503.02531) in homogeneous settings and by +0.48% and +1.09% over DIST and KD, respectively, in heterogeneous settings.
- Abstract(参考訳): 知識蒸留は、より大規模な「教師」ネットワークの予測行動を再現するために、コンパクトな「学生」ネットワークを訓練するモデル圧縮技術である。
ロジットに基づく知識蒸留では、蒸留用語でクロスエントロピーを増大させるデファクトアプローチとなっている。
通常、この用語はKLの発散整合限界確率またはクラス内およびクラス間関係を捉える相関に基づく損失である。
本稿では,教師のロジットを「価値」スコアとして解釈することで,選択論的な視点を採用し,プラケット・ルーシモデルの下で知識蒸留をリキャストする。
我々は,教師モデルがクラスの全ランキングに関する知識を伝達し,それぞれのランク選択を自身の自信で重み付けする,重み付けされたリストレベルのランク付け損失であるPlanet-Luce Distillation(PLD)を紹介した。
PLDは、まず、真のラベルの教師-最適ランクを直接最適化し、次に、教師の信頼度を低下させ、重み付きクロスエントロピーを仮定する凸、翻訳-不変サロゲートを生成する。
標準的な画像分類ベンチマークにおいて、PDDはDIST(arXiv:2205.10536)よりも平均+0.42%、KD(arXiv:1503.02531)よりは+1.04%、DISTとKDでは+0.48%、+1.09%の精度でTop-1精度を改善している。
関連論文リスト
- ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via $α$-$β$-Divergence [89.630486749083]
知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を伝達する。
KDの中核的な課題は、2つのモード集中効果のバランスにある。
我々は$alpha$$beta$-divergenceを持つ汎用フレームワークであるABKDを提案する。
論文 参考訳(メタデータ) (2025-05-07T16:48:49Z) - Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文 参考訳(メタデータ) (2025-02-17T12:58:12Z) - Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching [0.09999629695552192]
相関マッチング知識蒸留 (CMKD) 法は, ピアソンとスピアマンの相関係数に基づくKD損失を組み合わせ, より効率的で堅牢な蒸留を実現している。
CMKDはシンプルだが実用的であり、CIRAR-100とImageNetの最先端性能を継続的に達成できることを広範な実験で実証している。
論文 参考訳(メタデータ) (2024-10-09T05:42:47Z) - Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Rethinking Self-Distillation: Label Averaging and Enhanced Soft Label Refinement with Partial Labels [10.696635172502141]
マルチラウンド自己蒸留は,高い特徴相関を持つインスタンス間のラベル平均化を効果的に行う。
教師の最上位2つのソフトマックス出力の精巧な部分ラベルを用いた,新規で効率的なシングルラウンド自己蒸留法を提案する。
論文 参考訳(メタデータ) (2024-02-16T07:13:12Z) - Online Knowledge Distillation for Efficient Pose Estimation [37.81478634850458]
一段階的に人間の詩構造知識を蒸留し,新しいオンライン知識蒸留フレームワークについて検討する。
OKDHPは単一のマルチブランチネットワークをトレーニングし、予測されたヒートマップをそれぞれ取得する。
画素ワイドのKullback-Leibler分散を利用して、対象ヒートマップと予測値との差を最小限に抑える。
論文 参考訳(メタデータ) (2021-08-04T14:49:44Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。