論文の概要: MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks
- arxiv url: http://arxiv.org/abs/2502.01158v1
- Date: Mon, 03 Feb 2025 08:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:29.917887
- Title: MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks
- Title(参考訳): MIND:マルチモーダル臨床予測タスクのためのモダリティインフォームド知識蒸留フレームワーク
- Authors: Alejandro Guerra-Manzanares, Farah E. Shamout,
- Abstract要約: マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
- 参考スコア(独自算出の注目度): 50.98856172702256
- License:
- Abstract: Multimodal fusion leverages information across modalities to learn better feature representations with the goal of improving performance in fusion-based tasks. However, multimodal datasets, especially in medical settings, are typically smaller than their unimodal counterparts, which can impede the performance of multimodal models. Additionally, the increase in the number of modalities is often associated with an overall increase in the size of the multimodal network, which may be undesirable in medical use cases. Utilizing smaller unimodal encoders may lead to sub-optimal performance, particularly when dealing with high-dimensional clinical data. In this paper, we propose the Modality-INformed knowledge Distillation (MIND) framework, a multimodal model compression approach based on knowledge distillation that transfers knowledge from ensembles of pre-trained deep neural networks of varying sizes into a smaller multimodal student. The teacher models consist of unimodal networks, allowing the student to learn from diverse representations. MIND employs multi-head joint fusion models, as opposed to single-head models, enabling the use of unimodal encoders in the case of unimodal samples without requiring imputation or masking of absent modalities. As a result, MIND generates an optimized multimodal model, enhancing both multimodal and unimodal representations. It can also be leveraged to balance multimodal learning during training. We evaluate MIND on binary and multilabel clinical prediction tasks using time series data and chest X-ray images. Additionally, we assess the generalizability of the MIND framework on three non-medical multimodal multiclass datasets. Experimental results demonstrate that MIND enhances the performance of the smaller multimodal network across all five tasks, as well as various fusion methods and multimodal architectures, compared to state-of-the-art baselines.
- Abstract(参考訳): マルチモーダルフュージョンは、モダリティを越えた情報を活用し、フュージョンベースのタスクのパフォーマンスを改善することを目的として、より良い特徴表現を学習する。
しかし、特に医療環境では、マルチモーダルデータセットは、通常、そのユニモーダルデータセットよりも小さく、マルチモーダルモデルの性能を阻害する可能性がある。
さらに、モダリティの数の増加は、医療用途では望ましくないマルチモーダルネットワークのサイズの全体的な増加と関連していることが多い。
より小さいユニモーダルエンコーダを使用すると、特に高次元臨床データを扱う際には、準最適性能につながる可能性がある。
本稿では,知識蒸留に基づくマルチモーダルモデル圧縮手法であるModality-Informed Knowledge Distillation (MIND) フレームワークを提案する。
教師モデルは単調なネットワークで構成されており、生徒は多様な表現から学ぶことができる。
MINDはシングルヘッドモデルとは対照的に、マルチヘッドのジョイントフュージョンモデルを採用しており、不正なモダリティの計算やマスキングを必要とせずに、アンモダル・エンコーダをアンモダル・アンコーダとして使用することができる。
その結果、MINDは最適化されたマルチモーダルモデルを生成し、マルチモーダル表現とユニモーダル表現の両方を強化した。
トレーニング中のマルチモーダル学習のバランスを取るためにも利用できる。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
さらに、MINDフレームワークの3つの非メディカルマルチモーダルマルチクラスデータセットに対する一般化性を評価する。
実験結果から,MINDは5つのタスクの全てにまたがる小型マルチモーダルネットワークの性能を,最先端のベースラインに比べて向上させることが示された。
関連論文リスト
- Alt-MoE:A Scalable Framework for Bidirectional Multimodal Alignment and Efficient Knowledge Integration [6.928469290518152]
マルチモーダル学習は、共有潜在空間内で異なるモダリティを整列させることにより、著しく進歩した。
直接アライメントは、豊富なモダル内知識を十分に活用するのに苦労し、しばしばクロスモーダル表現を達成するために広範なトレーニングデータを必要とする。
Alt-MoEはスケーラブルなマルチモーダルアライメントフレームワークで、モダリティをまたいだ多方向コネクタとして専門家(MoE)モデルの混合を利用する。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z) - MM-Lego: Modular Biomedical Multimodal Models with Minimal Fine-Tuning [10.774128925670183]
マルチモーダルレゴ(MM-Lego)は、モジュール式で汎用的な融合およびモデルマージフレームワークである。
本研究では,MM-Legoをモデルマージ法としてエンド・ツー・エンドの融合モデルと組み合わせることができることを示す。
6つのベンチマークされたマルチモーダルバイオメディカルタスクに対して、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-05-30T11:14:01Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Multimodal Knowledge Expansion [14.332957885505547]
ラベルを必要とせずにマルチモーダルデータを利用する知識蒸留に基づくフレームワークを提案する。
我々は、マルチモーダルな学生モデルが一貫して疑似ラベルを否定し、教師よりも優れた一般化を示す。
論文 参考訳(メタデータ) (2021-03-26T12:32:07Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。