論文の概要: Enriching Knowledge Distillation with Cross-Modal Teacher Fusion
- arxiv url: http://arxiv.org/abs/2511.09286v1
- Date: Thu, 13 Nov 2025 01:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.499205
- Title: Enriching Knowledge Distillation with Cross-Modal Teacher Fusion
- Title(参考訳): クロスモーダル教師融合による知識蒸留の充実
- Authors: Amir M. Mansourian, Amir Mohammad Babaei, Shohreh Kasaei,
- Abstract要約: 複数教師の知識蒸留(KD)は、専門教師からロジットや特徴マッチングを用いて、コンパクトな学生モデルに知識を伝達する。
従来の教師のロジットや特徴をCLIPと融合する,シンプルで効果的なフレームワークを提案する。
分析の結果,教師の自信と信頼度は向上し,信頼度は著しく向上し,信頼度は低下した。
- 参考スコア(独自算出の注目度): 4.704107417683679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-teacher knowledge distillation (KD), a more effective technique than traditional single-teacher methods, transfers knowledge from expert teachers to a compact student model using logit or feature matching. However, most existing approaches lack knowledge diversity, as they rely solely on unimodal visual information, overlooking the potential of cross-modal representations. In this work, we explore the use of CLIP's vision-language knowledge as a complementary source of supervision for KD, an area that remains largely underexplored. We propose a simple yet effective framework that fuses the logits and features of a conventional teacher with those from CLIP. By incorporating CLIP's multi-prompt textual guidance, the fused supervision captures both dataset-specific and semantically enriched visual cues. Beyond accuracy, analysis shows that the fused teacher yields more confident and reliable predictions, significantly increasing confident-correct cases while reducing confidently wrong ones. Moreover, fusion with CLIP refines the entire logit distribution, producing semantically meaningful probabilities for non-target classes, thereby improving inter-class consistency and distillation quality. Despite its simplicity, the proposed method, Enriching Knowledge Distillation (RichKD), consistently outperforms most existing baselines across multiple benchmarks and exhibits stronger robustness under distribution shifts and input corruptions.
- Abstract(参考訳): マルチテラー知識蒸留(Multi-Teacher Knowledge distillation, KD)は、従来の単教師法よりも効果的な手法であり、専門教師からロジットや特徴マッチングを用いて、コンパクトな学生モデルに知識を伝達する。
しかし、既存のほとんどのアプローチは知識の多様性を欠いている。
本稿では,CLIPの視覚言語知識をKDの補完的管理源として利用することを検討する。
従来の教師のロジットや特徴をCLIPと融合する,シンプルで効果的なフレームワークを提案する。
CLIPのマルチプロンプトテキストガイダンスを取り入れることで、融合監視はデータセット固有のものとセマンティックに強化されたビジュアルキューの両方をキャプチャする。
分析の結果、融合した教師はより信頼性が高く信頼性の高い予測を導き、自信のある正しいケースを著しく増やし、確実な間違いを減らした。
さらに、CLIPとの融合により、ロジト分布全体が洗練され、非ターゲットクラスの意味論的意味のある確率が得られ、クラス間の一貫性と蒸留品質が向上する。
その単純さにもかかわらず、提案手法である Enriching Knowledge Distillation (RichKD) は、複数のベンチマークで既存のベースラインを一貫して上回り、分散シフトや入力汚職の下で強い堅牢性を示す。
関連論文リスト
- WeCKD: Weakly-supervised Chained Distillation Network for Efficient Multimodal Medical Imaging [1.9316515057518757]
Weakly-supervised Chain-based KD network that correctefines knowledge transfer through a structured sequence of connecteded model。
チェーン内の各モデルはデータセットのごく一部でトレーニングされ、最小限の監視で効果的な学習が達成できることを示す。
提案した蒸留鎖は、同じ限られたデータで訓練された単一のバックボーンに対して、累積精度が最大で23%向上した。
論文 参考訳(メタデータ) (2025-10-16T13:22:51Z) - MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation [8.68486556125022]
MST-Distillは、専門教師が混在する新しいクロスモーダルな知識蒸留フレームワークである。
本稿では,蒸留経路の選択と知識の漂流という,既存のアプローチにおける2つの重要な課題を実証的に明らかにする。
本手法では,マルチモーダル構成とクロスモーダル構成の両方に多様な教師モデルのアンサンブルを用いており,インスタンスレベルのルーティングネットワークと統合されている。
論文 参考訳(メタデータ) (2025-07-09T16:45:28Z) - Group Relative Knowledge Distillation: Learning from Teacher's Relational Inductive Bias [5.434571018755813]
グループ相対的知識蒸留(GRKD)は、クラス間の相対的なランク付けを学習することで教師の知識を蒸留する新しいフレームワークである。
分類ベンチマークの実験では、GRKDは既存の手法よりも優れた一般化を実現している。
論文 参考訳(メタデータ) (2025-04-29T07:23:22Z) - Cross-View Consistency Regularisation for Knowledge Distillation [13.918476599394603]
この研究は、半教師付き学習のような分野におけるクロスビュー学習の成功に触発されている。
標準ロジット蒸留フレームワークにインテリアビューおよびクロスビューレギュラー化を導入する。
また,教師の蒸留信号の品質向上のために,信頼性に基づくソフトラベルマイニングを実施している。
論文 参考訳(メタデータ) (2024-12-21T05:41:47Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Nested Collaborative Learning for Long-Tailed Visual Recognition [71.6074806468641]
NCLはNested Individual Learning (NIL)とNested Balanced Online Distillation (NBOD)の2つのコアコンポーネントから構成される。
表現をより徹底的に学習するために、NILとNBODはネストされた方法で定式化され、学習は全視点からだけでなく、部分的な視点からいくつかのハードなカテゴリに対して行われる。
NCLでは、2つの視点から学ぶことはネストされ、非常に関連があり、補完的であり、ネットワークがグローバルでロバストな特徴だけでなく、注意深く区別する能力も捉えるのに役立つ。
論文 参考訳(メタデータ) (2022-03-29T08:55:39Z) - Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation [91.56643684860062]
ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。
ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。
我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
論文 参考訳(メタデータ) (2022-02-08T07:01:56Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。