論文の概要: MDA: An Interpretable Multi-Modal Fusion with Missing Modalities and Intrinsic Noise
- arxiv url: http://arxiv.org/abs/2406.10569v2
- Date: Tue, 01 Oct 2024 06:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:33:16.935063
- Title: MDA: An Interpretable Multi-Modal Fusion with Missing Modalities and Intrinsic Noise
- Title(参考訳): MDA: モーダリティと固有雑音を欠く多モード核融合
- Authors: Lin Fan, Yafei Ou, Cenyang Zheng, Pengyu Dai, Tamotsu Kamishima, Masayuki Ikebe, Kenji Suzuki, Xun Gong,
- Abstract要約: 本稿では,モーダル・ドメイン・アテンション(MDA)を導入して,各モーダルの重みに対する適応調整を実現する,新しいマルチモーダル融合フレームワークを提案する。
本研究の目的は、欠落したモダリティや固有のノイズを取り入れつつ、マルチモーダル情報の融合を容易にし、マルチモーダルデータの表現を向上させることである。
- 参考スコア(独自算出の注目度): 6.612523356335498
- License:
- Abstract: Multi-modal fusion is crucial in medical data research, enabling a comprehensive understanding of diseases and improving diagnostic performance by combining diverse modalities. However, multi-modal fusion faces challenges, including capturing interactions between modalities, addressing missing modalities, handling erroneous modal information, and ensuring interpretability. Many existing researchers tend to design different solutions for these problems, often overlooking the commonalities among them. This paper proposes a novel multi-modal fusion framework that achieves adaptive adjustment over the weights of each modality by introducing the Modal-Domain Attention (MDA). It aims to facilitate the fusion of multi-modal information while allowing for the inclusion of missing modalities or intrinsic noise, thereby enhancing the representation of multi-modal data. We provide visualizations of accuracy changes and MDA weights by observing the process of modal fusion, offering a comprehensive analysis of its interpretability. Extensive experiments on various gastrointestinal disease benchmarks, the proposed MDA maintains high accuracy even in the presence of missing modalities and intrinsic noise. One thing worth mentioning is that the visualization of MDA is highly consistent with the conclusions of existing clinical studies on the dependence of different diseases on various modalities. Code and dataset will be made available.
- Abstract(参考訳): マルチモーダル融合は医療データ研究において重要であり、様々なモダリティを組み合わせることで、疾患の包括的理解と診断性能の向上を可能にする。
しかし、マルチモーダル融合は、モダリティ間の相互作用のキャプチャ、欠落したモダリティへの対処、誤ったモダリティ情報の処理、解釈可能性の確保など、課題に直面している。
既存の研究者の多くは、これらの問題に対して異なる解決策を設計する傾向があり、しばしばそれらの共通点を見下ろしている。
本稿では,モーダル・ドメイン・アテンション(MDA)を導入して,各モーダルの重みに対する適応調整を実現する,新しいマルチモーダル・フュージョン・フレームワークを提案する。
本研究の目的は、欠落したモダリティや固有のノイズを取り入れつつ、マルチモーダル情報の融合を容易にし、マルチモーダルデータの表現を向上させることである。
我々は,モーダル融合の過程を観察することにより,精度変化とMDA重みの可視化を行い,その解釈可能性に関する包括的分析を行う。
各種消化管疾患ベンチマークの広範囲な実験により,本提案のMDAは,モダリティの欠如や内因性雑音の存在下においても高い精度を維持している。
特筆すべき点は、MDAの可視化は、様々な疾患の様々なモードへの依存に関する既存の臨床研究の結論と非常に一致している点である。
コードとデータセットが利用可能になる。
関連論文リスト
- The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。
本研究は,幻覚に対する2つの重要な要因を明らかにした。
私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文 参考訳(メタデータ) (2024-10-16T17:59:02Z) - AuD-Former: A Hierarchical Transformer Network for Multimodal Audio-Based Disease Prediction [6.175036031779841]
生体音響モダリティ内の様々な領域の機能を統合したマルチモーダル融合は,診断性能の向上に有効であることが証明された。
この分野の既存の手法のほとんどは、モーダル内またはモーダル間融合にのみ焦点をあてる一方的な融合戦略を採用している。
一般的なマルチモーダルオーディオベースの疾患予測のために設計された階層型トランスフォーマーネットワークであるAuD-Formerを提案する。
論文 参考訳(メタデータ) (2024-10-11T22:37:52Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.22752954128738]
本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。
低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。
この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
論文 参考訳(メタデータ) (2024-04-27T07:22:28Z) - DrFuse: Learning Disentangled Representation for Clinical Multi-Modal
Fusion with Missing Modality and Modal Inconsistency [18.291267748113142]
そこで本研究では,DrFuseを効果的に多モード核融合を実現するために提案する。
モダリティに共通する特徴と各モダリティに特有の特徴を分離することで、モダリティの欠如に対処する。
実世界の大規模データセットMIMIC-IVとMIMIC-CXRを用いて提案手法を検証する。
論文 参考訳(メタデータ) (2024-03-10T12:41:34Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Reliable Multimodality Eye Disease Screening via Mixture of Student's t
Distributions [49.4545260500952]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインEyeMoStについて紹介する。
本モデルでは,一様性に対する局所的不確実性と融合モードに対する大域的不確実性の両方を推定し,信頼性の高い分類結果を生成する。
パブリックデータセットと社内データセットの両方に関する実験結果から、我々のモデルは現在の手法よりも信頼性が高いことが判明した。
論文 参考訳(メタデータ) (2023-03-17T06:18:16Z) - MMLN: Leveraging Domain Knowledge for Multimodal Diagnosis [10.133715767542386]
肺疾患診断のための知識駆動型およびデータ駆動型フレームワークを提案する。
本研究は, 臨床医学ガイドラインに従って診断規則を定式化し, テキストデータから規則の重みを学習する。
テキストと画像データからなるマルチモーダル融合は、肺疾患の限界確率を推定するために設計されている。
論文 参考訳(メタデータ) (2022-02-09T04:12:30Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。