Fugu-MT 論文翻訳(概要): BicKD: Bilateral Contrastive Knowledge Distillation

論文の概要: BicKD: Bilateral Contrastive Knowledge Distillation

arxiv url: http://arxiv.org/abs/2602.01265v1
Date: Sun, 01 Feb 2026 14:54:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-03 19:28:33.68314
Title: BicKD: Bilateral Contrastive Knowledge Distillation
Title（参考訳）: BicKD: 双方向コントラスト知識蒸留
Authors: Jiangnan Zhu, Yukai Xu, Li Xiong, Yixuan Liu, Junxu Liu, Hong kyu Lee, Yujie Gu,
Abstract要約: 知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する機械学習フレームワークである。バニラKDはロジットベースの蒸留において支配的なアプローチである。単純かつ効果的に両立した知識蒸留法(BicKD)を提案する。
参考スコア（独自算出の注目度）: 7.791534714823052
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowledge distillation (KD) is a machine learning framework that transfers knowledge from a teacher model to a student model. The vanilla KD proposed by Hinton et al. has been the dominant approach in logit-based distillation and demonstrates compelling performance. However, it only performs sample-wise probability alignment between teacher and student's predictions, lacking an mechanism for class-wise comparison. Besides, vanilla KD imposes no structural constraint on the probability space. In this work, we propose a simple yet effective methodology, bilateral contrastive knowledge distillation (BicKD). This approach introduces a novel bilateral contrastive loss, which intensifies the orthogonality among different class generalization spaces while preserving consistency within the same class. The bilateral formulation enables explicit comparison of both sample-wise and class-wise prediction patterns between teacher and student. By emphasizing probabilistic orthogonality, BicKD further regularizes the geometric structure of the predictive distribution. Extensive experiments show that our BicKD method enhances knowledge transfer, and consistently outperforms state-of-the-art knowledge distillation techniques across various model architectures and benchmarks.
Abstract（参考訳）: 知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する機械学習フレームワークである。 Hintonらによって提案されたバニラKDは、ロジットベースの蒸留において支配的なアプローチであり、魅力的な性能を示している。しかし,教師と生徒の予測のサンプルワイドな確率アライメントを行うだけで,クラスワイド比較のメカニズムが欠如している。さらに、バニラ KD は確率空間に構造的制約を課さない。本研究は, 単純かつ効果的に両立した知識蒸留(BicKD)を提案する。このアプローチは、異なるクラス一般化空間間の直交性を高めながら、同じクラス内での整合性を保った、新しい二元対照損失を導入する。この2つの定式化により,教師と生徒のサンプル・ワイド・クラス・ワイド・予測パターンの明示的な比較が可能となった。確率的直交性を強調することにより、BicKDは予測分布の幾何学的構造をさらに規則化する。大規模な実験により,BicKD法は知識伝達を向上し,様々なモデルアーキテクチャやベンチマークにおいて,最先端の知識蒸留技術より一貫して優れていることが示された。

関連論文リスト

SGD-Based Knowledge Distillation with Bayesian Teachers: Theory and Guidelines [82.00660447875266]
知識蒸留(英: Knowledge Distillation, KD)は、大きな教師ネットワークから、しばしばソフト確率出力を利用して、より小さな学生モデルに知識を伝達する中心的なパラダイムである。グラディエント・Descent (SGD) を訓練した学生の収束行動の厳密に分析する。分析の結果,BCPからの学習は分散の低減と収束境界の近傍項の除去に寄与することがわかった。これらの知見に触発されて、我々は、通常、KDの教師として、BCPの見積もりを改善するベイズ深層学習モデルの使用を提唱する。
論文参考訳（メタデータ） (2026-01-04T11:09:49Z)
A Dual-Space Framework for General Knowledge Distillation of Large Language Models [98.73585104789217]
知識蒸留(KD)は、より小さなモデルに知識を移すことによって、大きな言語モデル(LLM)を圧縮する有望なソリューションである。現在のWhite-box KDフレームワークには2つの制限がある。我々は,教師の予測ヘッドとKDの学生モデルを統合する,二空間知識蒸留(DSKD)フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-15T17:38:47Z)
Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文参考訳（メタデータ） (2024-08-16T22:11:01Z)
Discriminative and Consistent Representation Distillation [6.24302896438145]
識別・一貫性蒸留(DCD) DCDは、教師と生徒の表現の分布の相違を最小限に抑えるために、一貫性の規則化とともに対照的な損失を生んでいる。本手法では,これらの相補的目的のバランスをとるために,訓練中に適応する学習可能な温度パラメータとバイアスパラメータを導入する。
論文参考訳（メタデータ） (2024-07-16T14:53:35Z)
Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文参考訳（メタデータ） (2024-01-27T19:44:15Z)
Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。 CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文参考訳（メタデータ） (2023-11-03T21:55:33Z)
Knowledge Distillation $\approx$ Label Smoothing: Fact or Fallacy? [6.323424953013902]
トレーニングしたモデルの予測的信頼度を比較することで,手法間の等価性を再検討する。ほとんどの設定では、KDとLSは完全に反対方向にモデルの信頼性を駆動する。 KDでは、学生は知識だけでなく教師からの信頼も受け継ぎ、古典的な知識伝達の視点を強化している。
論文参考訳（メタデータ） (2023-01-30T02:05:24Z)
Weakly Supervised Semantic Segmentation via Alternative Self-Dual Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文参考訳（メタデータ） (2021-12-17T11:56:56Z)
Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文参考訳（メタデータ） (2020-07-03T19:54:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。