論文の概要: BicKD: Bilateral Contrastive Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2602.01265v1
- Date: Sun, 01 Feb 2026 14:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.68314
- Title: BicKD: Bilateral Contrastive Knowledge Distillation
- Title(参考訳): BicKD: 双方向コントラスト知識蒸留
- Authors: Jiangnan Zhu, Yukai Xu, Li Xiong, Yixuan Liu, Junxu Liu, Hong kyu Lee, Yujie Gu,
- Abstract要約: 知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する機械学習フレームワークである。
バニラKDはロジットベースの蒸留において支配的なアプローチである。
単純かつ効果的に両立した知識蒸留法(BicKD)を提案する。
- 参考スコア(独自算出の注目度): 7.791534714823052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) is a machine learning framework that transfers knowledge from a teacher model to a student model. The vanilla KD proposed by Hinton et al. has been the dominant approach in logit-based distillation and demonstrates compelling performance. However, it only performs sample-wise probability alignment between teacher and student's predictions, lacking an mechanism for class-wise comparison. Besides, vanilla KD imposes no structural constraint on the probability space. In this work, we propose a simple yet effective methodology, bilateral contrastive knowledge distillation (BicKD). This approach introduces a novel bilateral contrastive loss, which intensifies the orthogonality among different class generalization spaces while preserving consistency within the same class. The bilateral formulation enables explicit comparison of both sample-wise and class-wise prediction patterns between teacher and student. By emphasizing probabilistic orthogonality, BicKD further regularizes the geometric structure of the predictive distribution. Extensive experiments show that our BicKD method enhances knowledge transfer, and consistently outperforms state-of-the-art knowledge distillation techniques across various model architectures and benchmarks.
- Abstract(参考訳): 知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する機械学習フレームワークである。
Hintonらによって提案されたバニラKDは、ロジットベースの蒸留において支配的なアプローチであり、魅力的な性能を示している。
しかし,教師と生徒の予測のサンプルワイドな確率アライメントを行うだけで,クラスワイド比較のメカニズムが欠如している。
さらに、バニラ KD は確率空間に構造的制約を課さない。
本研究は, 単純かつ効果的に両立した知識蒸留(BicKD)を提案する。
このアプローチは、異なるクラス一般化空間間の直交性を高めながら、同じクラス内での整合性を保った、新しい二元対照損失を導入する。
この2つの定式化により,教師と生徒のサンプル・ワイド・クラス・ワイド・予測パターンの明示的な比較が可能となった。
確率的直交性を強調することにより、BicKDは予測分布の幾何学的構造をさらに規則化する。
大規模な実験により,BicKD法は知識伝達を向上し,様々なモデルアーキテクチャやベンチマークにおいて,最先端の知識蒸留技術より一貫して優れていることが示された。
関連論文リスト
- SGD-Based Knowledge Distillation with Bayesian Teachers: Theory and Guidelines [82.00660447875266]
知識蒸留(英: Knowledge Distillation, KD)は、大きな教師ネットワークから、しばしばソフト確率出力を利用して、より小さな学生モデルに知識を伝達する中心的なパラダイムである。
グラディエント・Descent (SGD) を訓練した学生の収束行動の厳密に分析する。
分析の結果,BCPからの学習は分散の低減と収束境界の近傍項の除去に寄与することがわかった。
これらの知見に触発されて、我々は、通常、KDの教師として、BCPの見積もりを改善するベイズ深層学習モデルの使用を提唱する。
論文 参考訳(メタデータ) (2026-01-04T11:09:49Z) - Conditional Pseudo-Supervised Contrast for Data-Free Knowledge Distillation [7.195870730342018]
我々は、データフリー知識蒸留(CPSC-DFKD)のための新しい学習パラダイム、すなわち条件付き擬似教師付きコントラストを提案する。
CPSC-DFKDの主な革新は,(1)擬似教師付き学習のためのカテゴリ固有の多様なイメージを合成するための条件付き生成対向ネットワークの導入,(2)異なるカテゴリの分布を識別するためのジェネレータのモジュールの改良,(3)教師と学生の視点に基づく擬似教師付きコントラスト学習の提案である。
論文 参考訳(メタデータ) (2025-10-03T13:34:19Z) - A Dual-Space Framework for General Knowledge Distillation of Large Language Models [98.73585104789217]
知識蒸留(KD)は、より小さなモデルに知識を移すことによって、大きな言語モデル(LLM)を圧縮する有望なソリューションである。
現在のWhite-box KDフレームワークには2つの制限がある。
我々は,教師の予測ヘッドとKDの学生モデルを統合する,二空間知識蒸留(DSKD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-15T17:38:47Z) - Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - Discriminative and Consistent Representation Distillation [6.24302896438145]
識別・一貫性蒸留(DCD)
DCDは、教師と生徒の表現の分布の相違を最小限に抑えるために、一貫性の規則化とともに対照的な損失を生んでいる。
本手法では,これらの相補的目的のバランスをとるために,訓練中に適応する学習可能な温度パラメータとバイアスパラメータを導入する。
論文 参考訳(メタデータ) (2024-07-16T14:53:35Z) - Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。
これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer [11.544799404018473]
本稿では,教師モデルの性能に匹敵する結果が得られる新しい知識蒸留(KD)手法を提案する。
我々は、テキスト埋め込みの類似性を測定するために、自然言語処理(NLP)におけるコサイン類似性(cosine similarity)を用いる。
本研究では,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:34:47Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Knowledge Distillation $\approx$ Label Smoothing: Fact or Fallacy? [6.323424953013902]
トレーニングしたモデルの予測的信頼度を比較することで,手法間の等価性を再検討する。
ほとんどの設定では、KDとLSは完全に反対方向にモデルの信頼性を駆動する。
KDでは、学生は知識だけでなく教師からの信頼も受け継ぎ、古典的な知識伝達の視点を強化している。
論文 参考訳(メタデータ) (2023-01-30T02:05:24Z) - Knowledge Distillation from A Stronger Teacher [44.11781464210916]
本稿では,より強い教師を駆使したDIST法を提案する。
経験的に、学生と教師の予測の相違は、かなり厳しいものになりがちである。
提案手法は単純かつ実用的であり,様々なアーキテクチャに適応できることを示す。
論文 参考訳(メタデータ) (2022-05-21T08:30:58Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。