論文の概要: MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2507.07015v1
- Date: Wed, 09 Jul 2025 16:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.681659
- Title: MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation
- Title(参考訳): MST-Distill: クロスモーダル知識蒸留専門教員の混合
- Authors: Hui Li, Pengfei Yang, Juanyang Chen, Le Dong, Yanxin Chen, Quan Wang,
- Abstract要約: MST-Distillは、専門教師が混在する新しいクロスモーダルな知識蒸留フレームワークである。
本稿では,蒸留経路の選択と知識の漂流という,既存のアプローチにおける2つの重要な課題を実証的に明らかにする。
本手法では,マルチモーダル構成とクロスモーダル構成の両方に多様な教師モデルのアンサンブルを用いており,インスタンスレベルのルーティングネットワークと統合されている。
- 参考スコア(独自算出の注目度): 8.68486556125022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation as an efficient knowledge transfer technique, has achieved remarkable success in unimodal scenarios. However, in cross-modal settings, conventional distillation methods encounter significant challenges due to data and statistical heterogeneities, failing to leverage the complementary prior knowledge embedded in cross-modal teacher models. This paper empirically reveals two critical issues in existing approaches: distillation path selection and knowledge drift. To address these limitations, we propose MST-Distill, a novel cross-modal knowledge distillation framework featuring a mixture of specialized teachers. Our approach employs a diverse ensemble of teacher models across both cross-modal and multimodal configurations, integrated with an instance-level routing network that facilitates adaptive and dynamic distillation. This architecture effectively transcends the constraints of traditional methods that rely on monotonous and static teacher models. Additionally, we introduce a plug-in masking module, independently trained to suppress modality-specific discrepancies and reconstruct teacher representations, thereby mitigating knowledge drift and enhancing transfer effectiveness. Extensive experiments across five diverse multimodal datasets, spanning visual, audio, and text, demonstrate that our method significantly outperforms existing state-of-the-art knowledge distillation methods in cross-modal distillation tasks. The source code is available at https://github.com/Gray-OREO/MST-Distill.
- Abstract(参考訳): 効率的な知識伝達技術としての知識蒸留は、単調なシナリオにおいて顕著な成功を収めた。
しかし, クロスモーダルな環境では, 従来の蒸留法はデータや統計的不均一性による重大な問題に直面し, クロスモーダルな教師モデルに埋め込まれた補完的な事前知識の活用に失敗した。
本稿では,蒸留経路の選択と知識の漂流という,既存のアプローチにおける2つの重要な課題を実証的に明らかにする。
これらの制約に対処するために, 専門教師の混在を特徴とした, クロスモーダルな知識蒸留フレームワーク MST-Distill を提案する。
本手法では, クロスモーダルおよびマルチモーダル構成の多様な教師モデルのアンサンブルを用いて, 適応的および動的蒸留を容易にするインスタンスレベルのルーティングネットワークと統合する。
このアーキテクチャは、単調な教師モデルと静的な教師モデルに依存する従来のメソッドの制約を効果的に超越する。
さらに,モダリティ固有の不一致を抑え,教師の表現を再構築するために独自に訓練されたプラグインマスキングモジュールを導入し,知識の漂流を軽減し,伝達効率を向上させる。
視覚,音声,テキストにまたがる5つの多様なマルチモーダルデータセットに対する広範囲な実験により,我々の手法は,クロスモーダル蒸留作業における既存の知識蒸留法を著しく上回ることを示した。
ソースコードはhttps://github.com/Gray-OREO/MST-Distillで公開されている。
関連論文リスト
- Cross-Modal Distillation For Widely Differing Modalities [31.049823782188437]
我々は,教師モデルを導入し,学生モデルに差別的知識を伝達することでマルチモーダル学習を行う。
蒸留によるこの知識伝達は、広く異なるモダリティ間の大きなドメインギャップが、容易に過度な適合をもたらすため、簡単ではない。
本稿では,2つの軟式制約付き知識蒸留法と品質ベース適応重みモジュールを用いて,試料の重み付けを行う。
論文 参考訳(メタデータ) (2025-07-22T07:34:00Z) - JointDistill: Adaptive Multi-Task Distillation for Joint Depth Estimation and Scene Segmentation [31.89422375115854]
この研究は、マルチタスク蒸留を用いて統一モデリングを改善する方法について検討する。
学生の現在の学習能力に応じて各教師の知識量を調整できる自己適応型蒸留法を提案する。
我々は,CityscapesやNYU-v2など,複数のベンチマークデータセットについて評価を行った。
論文 参考訳(メタデータ) (2025-05-15T08:00:48Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。
既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。
本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文 参考訳(メタデータ) (2024-12-12T06:09:49Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - DisCoM-KD: Cross-Modal Knowledge Distillation via Disentanglement Representation and Adversarial Learning [3.763772992906958]
クロスモーダル知識蒸留(英語: Cross-modal knowledge distillation, CMKD)とは、学習フレームワークが、モダリティミスマッチを示すトレーニングとテストデータを扱う必要があるシナリオを指す。
DisCoM-KD (Disentanglement-learning based Cross-Modal Knowledge Distillation) は、モジュールごとの情報の種類を明示的にモデル化する。
論文 参考訳(メタデータ) (2024-08-05T13:44:15Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。