論文の概要: Learnable Cross-modal Knowledge Distillation for Multi-modal Learning with Missing Modality
- arxiv url: http://arxiv.org/abs/2310.01035v2
- Date: Fri, 14 Mar 2025 07:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 16:13:19.236934
- Title: Learnable Cross-modal Knowledge Distillation for Multi-modal Learning with Missing Modality
- Title(参考訳): モダリティを欠くマルチモーダル学習のための学習可能なクロスモーダル知識蒸留法
- Authors: Hu Wang, Congbo Ma, Jianpeng Zhang, Yuan Zhang, Jodie Avery, Louise Hull, Gustavo Carneiro,
- Abstract要約: 特定のモダリティが他のモダリティよりも寄与するマルチモーダルタスクでは一般的であり、これらの重要なモダリティが欠如している場合、モデルの性能は大幅に低下する。
本稿では,重要なモダリティを適応的に同定し,それらのモダリティから他のモダリティを支援するための学習可能なクロスモーダル知識蒸留モデルを提案する。
- 参考スコア(独自算出の注目度): 19.49206679753195
- License:
- Abstract: The problem of missing modalities is both critical and non-trivial to be handled in multi-modal models. It is common for multi-modal tasks that certain modalities contribute more compared to other modalities, and if those important modalities are missing, the model performance drops significantly. Such fact remains unexplored by current multi-modal approaches that recover the representation from missing modalities by feature reconstruction or blind feature aggregation from other modalities, instead of extracting useful information from the best performing modalities. In this paper, we propose a Learnable Cross-modal Knowledge Distillation (LCKD) model to adaptively identify important modalities and distil knowledge from them to help other modalities from the cross-modal perspective for solving the missing modality issue. Our approach introduces a teacher election procedure to select the most ``qualified'' teachers based on their single modality performance on certain tasks. Then, cross-modal knowledge distillation is performed between teacher and student modalities for each task to push the model parameters to a point that is beneficial for all tasks. Hence, even if the teacher modalities for certain tasks are missing during testing, the available student modalities can accomplish the task well enough based on the learned knowledge from their automatically elected teacher modalities. Experiments on the Brain Tumour Segmentation Dataset 2018 (BraTS2018) shows that LCKD outperforms other methods by a considerable margin, improving the state-of-the-art performance by 3.61% for enhancing tumour, 5.99% for tumour core, and 3.76% for whole tumour in terms of segmentation Dice score.
- Abstract(参考訳): モダリティの欠如という問題は、マルチモーダルモデルで扱うための臨界かつ非自明な問題である。
特定のモダリティが他のモダリティよりも寄与するマルチモーダルタスクでは一般的であり、これらの重要なモダリティが欠如している場合、モデルの性能は大幅に低下する。
このような事実は、最高のモダリティから有用な情報を抽出する代わりに、特徴再構成や他のモダリティからのブラインド特徴集約によって、欠落したモダリティから表現を回復する現在のマルチモーダルアプローチによって探索されていない。
本稿では、重要なモダリティを適応的に識別し、それらのモダリティを除去する学習可能なクロスモーダル知識蒸留(LCKD)モデルを提案し、欠落したモダリティ問題を解決するためのクロスモーダルの観点から他のモダリティを支援する。
提案手法では,特定のタスクにおける単一モータリティのパフォーマンスに基づいて,最も「適格化された」教師を選抜するための教員選挙手順を導入する。
そして、各タスクの教師と学生のモダリティ間でクロスモーダルな知識蒸留を行い、モデルパラメータを全てのタスクに有益なポイントにプッシュする。
したがって、テスト中に特定のタスクに対する教師のモダリティが欠落している場合でも、自動的に選択された教師のモダリティから学んだ知識に基づいて、学生のモダリティが十分に達成できる。
Brain Tumour Segmentation Dataset 2018 (BraTS2018) の実験では、LCKDは他の手法よりもかなり優れており、腫瘍の増進には3.61%、腫瘍コアは5.99%、腫瘍全体の3.76%が改良されている。
関連論文リスト
- PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。
重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。
PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文 参考訳(メタデータ) (2025-01-16T08:04:04Z) - Modality-Balanced Learning for Multimedia Recommendation [21.772064939915214]
本稿では,不均衡問題を解消し,全てのモダリティを最大限に活用するための対実的知識蒸留法を提案する。
また,教師からより広義の知識を習得するために,多モーダルな学生を指導するために,新たな総合的・特異な蒸留損失を設計する。
我々の手法は、遅延核融合と早期核融合の両方のバックボーンのためのプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-26T07:53:01Z) - Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - Meta-Learned Modality-Weighted Knowledge Distillation for Robust Multi-Modal Learning with Missing Data [26.81952369462594]
マルチモーダル学習では、いくつかのモダリティは他のモダリティよりも影響を受けており、それらの欠如は分類・分類精度に大きな影響を及ぼす可能性がある。
本稿では,メタ学習型モダリティ重み付き知識蒸留(MetaKD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:18:10Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Improving Multi-Modal Learning with Uni-Modal Teachers [14.917618203952479]
そこで本研究では,融合目標と一様蒸留を組み合わせたマルチモーダル学習手法Uni-Modal Teacherを提案する。
提案手法は,各モードの表現を劇的に改善するだけでなく,総合的なマルチモーダルタスク性能も向上することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:46:47Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。