論文の概要: MDA: An Interpretable and Scalable Multi-Modal Fusion under Missing Modalities and Intrinsic Noise Conditions
- arxiv url: http://arxiv.org/abs/2406.10569v3
- Date: Sun, 17 Nov 2024 14:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:28.395544
- Title: MDA: An Interpretable and Scalable Multi-Modal Fusion under Missing Modalities and Intrinsic Noise Conditions
- Title(参考訳): MDA: モーダリティの欠如と本質的騒音条件下での解釈可能かつスケーラブルな多モード核融合
- Authors: Lin Fan, Yafei Ou, Cenyang Zheng, Pengyu Dai, Tamotsu Kamishima, Masayuki Ikebe, Kenji Suzuki, Xun Gong,
- Abstract要約: 本稿では,マルチモーダル学習の課題に対処するために,モーダル・ドメイン・アテンション(MDA)モデルを提案する。
MDAは、異なるモーダルに対して動的注意を適応的に割り当てる能力により、連続的な注意を通してモーダル間の線形関係を構築する。
以上の結果から,MDAと診断基準が一致していることが示唆された。
- 参考スコア(独自算出の注目度): 6.612523356335498
- License:
- Abstract: Multi-modal learning has shown exceptional performance in various tasks, especially in medical applications, where it integrates diverse medical information for comprehensive diagnostic evidence. However, there still are several challenges in multi-modal learning, 1. Heterogeneity between modalities, 2. uncertainty in missing modalities, 3. influence of intrinsic noise, and 4. interpretability for fusion result. This paper introduces the Modal-Domain Attention (MDA) model to address the above challenges. MDA constructs linear relationships between modalities through continuous attention, due to its ability to adaptively allocate dynamic attention to different modalities, MDA can reduce attention to low-correlation data, missing modalities, or modalities with inherent noise, thereby maintaining SOTA performance across various tasks on multiple public datasets. Furthermore, our observations on the contribution of different modalities indicate that MDA aligns with established clinical diagnostic imaging gold standards and holds promise as a reference for pathologies where these standards are not yet clearly defined. The code and dataset will be available.
- Abstract(参考訳): マルチモーダル学習は様々なタスク、特に医学的応用において例外的な性能を示しており、様々な医療情報を総合的な診断証拠として統合している。
しかし、マルチモーダル学習にはいくつかの課題がある。
1.モダリティ間の不均一性
2.失格の不確実性
3.本質的な騒音の影響、及び
4. 核融合反応の解釈可能性
本稿では、上記の課題に対処するために、MDA(Modal-Domain Attention)モデルを提案する。
MDAは、異なるモダリティに対する動的注意を適応的に割り当てる能力により、連続的な注意を通してモダリティ間の線形関係を構築するため、低相関データ、欠落モダリティ、または固有のノイズを伴うモダリティへの注意を減らし、複数のパブリックデータセット上の様々なタスクにおけるSOTA性能を維持することができる。
以上の結果から,MDAは確立した臨床診断画像ゴールド標準と整合し,これらの基準が明確に定義されていない病態の基準として期待できると考えられた。
コードとデータセットが利用可能になる。
関連論文リスト
- The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。
本研究は,幻覚に対する2つの重要な要因を明らかにした。
私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文 参考訳(メタデータ) (2024-10-16T17:59:02Z) - AuD-Former: A Hierarchical Transformer Network for Multimodal Audio-Based Disease Prediction [6.175036031779841]
生体音響モダリティ内の様々な領域の機能を統合したマルチモーダル融合は,診断性能の向上に有効であることが証明された。
この分野の既存の手法のほとんどは、モーダル内またはモーダル間融合にのみ焦点をあてる一方的な融合戦略を採用している。
一般的なマルチモーダルオーディオベースの疾患予測のために設計された階層型トランスフォーマーネットワークであるAuD-Formerを提案する。
論文 参考訳(メタデータ) (2024-10-11T22:37:52Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.22752954128738]
本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。
低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。
この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
論文 参考訳(メタデータ) (2024-04-27T07:22:28Z) - DrFuse: Learning Disentangled Representation for Clinical Multi-Modal
Fusion with Missing Modality and Modal Inconsistency [18.291267748113142]
そこで本研究では,DrFuseを効果的に多モード核融合を実現するために提案する。
モダリティに共通する特徴と各モダリティに特有の特徴を分離することで、モダリティの欠如に対処する。
実世界の大規模データセットMIMIC-IVとMIMIC-CXRを用いて提案手法を検証する。
論文 参考訳(メタデータ) (2024-03-10T12:41:34Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Reliable Multimodality Eye Disease Screening via Mixture of Student's t
Distributions [49.4545260500952]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインEyeMoStについて紹介する。
本モデルでは,一様性に対する局所的不確実性と融合モードに対する大域的不確実性の両方を推定し,信頼性の高い分類結果を生成する。
パブリックデータセットと社内データセットの両方に関する実験結果から、我々のモデルは現在の手法よりも信頼性が高いことが判明した。
論文 参考訳(メタデータ) (2023-03-17T06:18:16Z) - MMLN: Leveraging Domain Knowledge for Multimodal Diagnosis [10.133715767542386]
肺疾患診断のための知識駆動型およびデータ駆動型フレームワークを提案する。
本研究は, 臨床医学ガイドラインに従って診断規則を定式化し, テキストデータから規則の重みを学習する。
テキストと画像データからなるマルチモーダル融合は、肺疾患の限界確率を推定するために設計されている。
論文 参考訳(メタデータ) (2022-02-09T04:12:30Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。