論文の概要: Swapped Logit Distillation via Bi-level Teacher Alignment
- arxiv url: http://arxiv.org/abs/2504.20108v1
- Date: Sun, 27 Apr 2025 15:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.595617
- Title: Swapped Logit Distillation via Bi-level Teacher Alignment
- Title(参考訳): 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳 対訳
- Authors: Stephen Ekaputra Limantoro, Jhe-Hao Lin, Chih-Yu Wang, Yi-Lung Tsai, Hong-Han Shuai, Ching-Chun Huang, Wen-Huang Cheng,
- Abstract要約: 知識蒸留(KD)は、大きな(教師)ネットワークからより小さな(学生)ネットワークへ知識を伝達することで、ネットワーク容量を圧縮する
スワップロジット蒸留(SLD)によるロジット蒸留を提案する。
従来の最先端手法では,SLDが常に最良であることがわかった。
- 参考スコア(独自算出の注目度): 32.746586492281104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) compresses the network capacity by transferring knowledge from a large (teacher) network to a smaller one (student). It has been mainstream that the teacher directly transfers knowledge to the student with its original distribution, which can possibly lead to incorrect predictions. In this article, we propose a logit-based distillation via swapped logit processing, namely Swapped Logit Distillation (SLD). SLD is proposed under two assumptions: (1) the wrong prediction occurs when the prediction label confidence is not the maximum; (2) the "natural" limit of probability remains uncertain as the best value addition to the target cannot be determined. To address these issues, we propose a swapped logit processing scheme. Through this approach, we find that the swap method can be effectively extended to teacher and student outputs, transforming into two teachers. We further introduce loss scheduling to boost the performance of two teachers' alignment. Extensive experiments on image classification tasks demonstrate that SLD consistently performs best among previous state-of-the-art methods.
- Abstract(参考訳): 知識蒸留(KD)は、大きな(教師)ネットワークからより小さな(学生)ネットワークへ知識を伝達することで、ネットワーク容量を圧縮する。
教師が学習者に直接知識を伝達して本来の分布を与えることは主流であり、誤った予測につながる可能性がある。
本稿では,スワップドロジット蒸留(SLD)という,交換ロジット処理によるロジット蒸留を提案する。
SLDは,(1)予測ラベルの信頼度が最大でない場合の誤予測,(2)目標への最良の付加価値が決定できないため,確率の「自然な」限界が不確かである,という2つの仮定の下で提案される。
これらの問題に対処するために、スワップされたロジット処理方式を提案する。
この手法により、スワップ法は教師と生徒の出力に効果的に拡張でき、2つの教師に変換できることがわかった。
さらに,2人の教師のアライメント性能を高めるために,損失スケジューリングを導入する。
画像分類タスクに関する大規模な実験により、SLDは従来の最先端手法の中で一貫して優れた性能を発揮することが示された。
関連論文リスト
- Cross-Tokenizer Distillation via Approximate Likelihood Matching [17.597293085255075]
我々はこの欠乏を解消するためのクロストケナイザー蒸留法を開発した。
本手法は,次回の予測損失を伴わずにクロストケナイザー蒸留を可能にする最初の方法である。
本研究は,LLMの適応性向上と,LLM間の相互作用の強化に大きく貢献する。
論文 参考訳(メタデータ) (2025-03-25T21:44:10Z) - Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文 参考訳(メタデータ) (2025-02-17T12:58:12Z) - Self-Evolution Knowledge Distillation for LLM-based Machine Translation [36.01859033056453]
我々は、自己進化KDと呼ばれる蒸留戦略を提案する。
このアプローチの核心は、教師の分布と基礎的真理の1ホット分布を、事前知識として学生の分布に動的に統合することである。
実験の結果,WMT22テストセットでは,4つの翻訳方向の約1.4のSacreBLEU点が平均的に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-12-19T12:24:15Z) - Do Not Blindly Imitate the Teacher: Using Perturbed Loss for Knowledge
Distillation [37.57793306258625]
学生は、KLの出力分布と教師の出力分布を最小化することにより、教師の模倣を学ぶ。
教師の出力分布と基底真理ラベル分布との間には相違点があることから,このような学習目標が準最適であると論じる。
そこで我々は,まずバニラKLに基づく蒸留損失関数をマクロリン級数で表現し,次に先行項を摂動することで,新しい知識蒸留目的PTLosを提案する。
論文 参考訳(メタデータ) (2023-05-08T19:31:09Z) - Grouped Knowledge Distillation for Deep Face Recognition [53.57402723008569]
軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
論文 参考訳(メタデータ) (2023-04-10T09:04:38Z) - Respecting Transfer Gap in Knowledge Distillation [74.38776465736471]
知識蒸留(KD)は、教師モデルの振る舞いを学生モデルに伝達する過程である。
従来のKDメソッドは、人間のドメインとマシンドメインの両方で収集されたデータが、独立かつ同一の分散である、という前提を持っている。
Inverse Probability Weighting Distillation (IPWD) を提案する。
論文 参考訳(メタデータ) (2022-10-23T17:05:32Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - ALP-KD: Attention-Based Layer Projection for Knowledge Distillation [30.896957367331137]
2つのニューラルネットワーク、すなわち教師と学生は、トレーニング中に一緒に結合されます。
教師ネットワークは信頼できる予測者であり、生徒はその予測を模倣しようとします。
このような状況下では、蒸留は最終予測でのみ行われるが、生徒は教師が内部成分を監督する利益も得る。
論文 参考訳(メタデータ) (2020-12-27T22:30:13Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。