論文の概要: Cross-Modal Distillation For Widely Differing Modalities
- arxiv url: http://arxiv.org/abs/2507.16296v1
- Date: Tue, 22 Jul 2025 07:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.006171
- Title: Cross-Modal Distillation For Widely Differing Modalities
- Title(参考訳): ワイドディファレンスのためのクロスモーダル蒸留法
- Authors: Cairong Zhao, Yufeng Jin, Zifan Song, Haonan Chen, Duoqian Miao, Guosheng Hu,
- Abstract要約: 我々は,教師モデルを導入し,学生モデルに差別的知識を伝達することでマルチモーダル学習を行う。
蒸留によるこの知識伝達は、広く異なるモダリティ間の大きなドメインギャップが、容易に過度な適合をもたらすため、簡単ではない。
本稿では,2つの軟式制約付き知識蒸留法と品質ベース適応重みモジュールを用いて,試料の重み付けを行う。
- 参考スコア(独自算出の注目度): 31.049823782188437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning achieved great progress recently, however, it is not easy or efficient to further improve its performance by increasing the size of the model. Multi-modal learning can mitigate this challenge by introducing richer and more discriminative information as input. To solve the problem of limited access to multi-modal data at the time of use, we conduct multi-modal learning by introducing a teacher model to transfer discriminative knowledge to a student model during training. However, this knowledge transfer via distillation is not trivial because the big domain gap between the widely differing modalities can easily lead to overfitting. In this work, we introduce a cross-modal distillation framework. Specifically, we find hard constrained loss, e.g. l2 loss forcing the student being exact the same as the teacher, can easily lead to overfitting in cross-modality distillation. To address this, we propose two soft constrained knowledge distillation strategies at the feature level and classifier level respectively. In addition, we propose a quality-based adaptive weights module to weigh input samples via quantified data quality, leading to robust model training. We conducted experiments on speaker recognition and image classification tasks, and the results show that our approach is able to effectively achieve knowledge transfer between the commonly used and widely differing modalities of image, text, and speech.
- Abstract(参考訳): ディープラーニングは近年大きな進歩を遂げていますが、モデルのサイズを拡大することで、そのパフォーマンスをさらに向上させることは簡単でも効率的でもありません。
マルチモーダル学習は、よりリッチで差別的な情報を入力として導入することで、この課題を軽減することができる。
使用時のマルチモーダルデータへのアクセス制限を解決するため,教師モデルを導入し,学生モデルに差別的知識を伝達することで,マルチモーダル学習を行う。
しかし、この蒸留による知識伝達は、広く異なるモダリティ間の大きなドメインギャップが、容易に過度に適合する可能性があるため、簡単ではない。
本研究では, クロスモーダル蒸留の枠組みを導入する。
具体的には, 生徒が教師と全く同じであるように強い制約のある損失, 例えば, l2の損失は, クロスモダリティ蒸留における過度な適合につながることが示唆された。
そこで本研究では,特徴量レベルと分類器レベルの2つの軟式制約付き知識蒸留手法を提案する。
さらに,データ品質の定量化による入力サンプルの重み付けを行う品質ベース適応加重モジュールを提案し,ロバストなモデルトレーニングを実現する。
話者認識と画像分類の課題について実験を行い, 提案手法は画像, テキスト, 音声間の知識伝達を効果的に行うことができることを示した。
関連論文リスト
- MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation [8.68486556125022]
MST-Distillは、専門教師が混在する新しいクロスモーダルな知識蒸留フレームワークである。
本稿では,蒸留経路の選択と知識の漂流という,既存のアプローチにおける2つの重要な課題を実証的に明らかにする。
本手法では,マルチモーダル構成とクロスモーダル構成の両方に多様な教師モデルのアンサンブルを用いており,インスタンスレベルのルーティングネットワークと統合されている。
論文 参考訳(メタデータ) (2025-07-09T16:45:28Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - JointDistill: Adaptive Multi-Task Distillation for Joint Depth Estimation and Scene Segmentation [31.89422375115854]
この研究は、マルチタスク蒸留を用いて統一モデリングを改善する方法について検討する。
学生の現在の学習能力に応じて各教師の知識量を調整できる自己適応型蒸留法を提案する。
我々は,CityscapesやNYU-v2など,複数のベンチマークデータセットについて評価を行った。
論文 参考訳(メタデータ) (2025-05-15T08:00:48Z) - Knowledge Distillation for Multimodal Egocentric Action Recognition Robust to Missing Modalities [43.15852057358654]
我々は,エゴセントリックな行動認識のための効率的なマルチモーダルな知識蒸留手法を提案する。
本手法は,教師モデルにおける一助的特徴抽出器として事前学習したモデルを活用することで,資源効率の向上に重点を置いている。
論文 参考訳(メタデータ) (2025-04-11T14:30:42Z) - Sample-level Adaptive Knowledge Distillation for Action Recognition [43.35357057084902]
知識蒸留(KD)は、訓練済みの大規模ネットワーク(教師)から知識を伝達することで、小さなネットワーク(学生)を学習することでニューラルネットワークを圧縮する
本稿では,アクション認識のためのサンプルレベルの適応的知識蒸留フレームワークを提案する。
2つのビデオベンチマークと1つの画像ベンチマークの実験結果から,提案手法の優位性を実証した。
論文 参考訳(メタデータ) (2025-04-01T10:04:20Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Modality-Balanced Learning for Multimedia Recommendation [21.772064939915214]
本稿では,不均衡問題を解消し,全てのモダリティを最大限に活用するための対実的知識蒸留法を提案する。
また,教師からより広義の知識を習得するために,多モーダルな学生を指導するために,新たな総合的・特異な蒸留損失を設計する。
我々の手法は、遅延核融合と早期核融合の両方のバックボーンのためのプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-26T07:53:01Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Learning Transferable Adversarial Robust Representations via Multi-view
Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。
未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-19T11:48:01Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文 参考訳(メタデータ) (2021-09-14T12:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。