論文の概要: MDA: An Interpretable and Scalable Multi-Modal Fusion under Missing Modalities and Intrinsic Noise Conditions
- arxiv url: http://arxiv.org/abs/2406.10569v3
- Date: Sun, 17 Nov 2024 14:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:28.395544
- Title: MDA: An Interpretable and Scalable Multi-Modal Fusion under Missing Modalities and Intrinsic Noise Conditions
- Title(参考訳): MDA: モーダリティの欠如と本質的騒音条件下での解釈可能かつスケーラブルな多モード核融合
- Authors: Lin Fan, Yafei Ou, Cenyang Zheng, Pengyu Dai, Tamotsu Kamishima, Masayuki Ikebe, Kenji Suzuki, Xun Gong,
- Abstract要約: 本稿では,マルチモーダル学習の課題に対処するために,モーダル・ドメイン・アテンション(MDA)モデルを提案する。
MDAは、異なるモーダルに対して動的注意を適応的に割り当てる能力により、連続的な注意を通してモーダル間の線形関係を構築する。
以上の結果から,MDAと診断基準が一致していることが示唆された。
- 参考スコア(独自算出の注目度): 6.612523356335498
- License:
- Abstract: Multi-modal learning has shown exceptional performance in various tasks, especially in medical applications, where it integrates diverse medical information for comprehensive diagnostic evidence. However, there still are several challenges in multi-modal learning, 1. Heterogeneity between modalities, 2. uncertainty in missing modalities, 3. influence of intrinsic noise, and 4. interpretability for fusion result. This paper introduces the Modal-Domain Attention (MDA) model to address the above challenges. MDA constructs linear relationships between modalities through continuous attention, due to its ability to adaptively allocate dynamic attention to different modalities, MDA can reduce attention to low-correlation data, missing modalities, or modalities with inherent noise, thereby maintaining SOTA performance across various tasks on multiple public datasets. Furthermore, our observations on the contribution of different modalities indicate that MDA aligns with established clinical diagnostic imaging gold standards and holds promise as a reference for pathologies where these standards are not yet clearly defined. The code and dataset will be available.
- Abstract(参考訳): マルチモーダル学習は様々なタスク、特に医学的応用において例外的な性能を示しており、様々な医療情報を総合的な診断証拠として統合している。
しかし、マルチモーダル学習にはいくつかの課題がある。
1.モダリティ間の不均一性
2.失格の不確実性
3.本質的な騒音の影響、及び
4. 核融合反応の解釈可能性
本稿では、上記の課題に対処するために、MDA(Modal-Domain Attention)モデルを提案する。
MDAは、異なるモダリティに対する動的注意を適応的に割り当てる能力により、連続的な注意を通してモダリティ間の線形関係を構築するため、低相関データ、欠落モダリティ、または固有のノイズを伴うモダリティへの注意を減らし、複数のパブリックデータセット上の様々なタスクにおけるSOTA性能を維持することができる。
以上の結果から,MDAは確立した臨床診断画像ゴールド標準と整合し,これらの基準が明確に定義されていない病態の基準として期待できると考えられた。
コードとデータセットが利用可能になる。
関連論文リスト
- Incomplete Modality Disentangled Representation for Ophthalmic Disease Grading and Diagnosis [16.95583564875497]
本稿では,不完全なモダリティ・ディアンタングル表現(IMDR)戦略を提案する。
4つのマルチモーダルデータセットの実験により、提案したIMDRが最先端の手法を大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-02-17T12:10:35Z) - ITCFN: Incomplete Triple-Modal Co-Attention Fusion Network for Mild Cognitive Impairment Conversion Prediction [12.893857146169045]
アルツハイマー病(英語: Alzheimer's disease、AD)は、高齢者の神経変性疾患である。
軽度認知障害(MCI)の早期予測と時間的介入は、ADに進むリスクを減少させる可能性がある。
論文 参考訳(メタデータ) (2025-01-20T05:12:31Z) - The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。
本研究は,幻覚に対する2つの重要な要因を明らかにした。
私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文 参考訳(メタデータ) (2024-10-16T17:59:02Z) - Completed Feature Disentanglement Learning for Multimodal MRIs Analysis [36.32164729310868]
特徴不整合(FD)に基づく手法はマルチモーダルラーニング(MML)において大きな成功を収めた
本稿では,特徴デカップリング時に失われた情報を復元する完全特徴分散(CFD)戦略を提案する。
具体的には、CFD戦略は、モダリティ共有とモダリティ固有の特徴を識別するだけでなく、マルチモーダル入力のサブセット間の共有特徴を分離する。
論文 参考訳(メタデータ) (2024-07-06T01:49:38Z) - ADAPT: Multimodal Learning for Detecting Physiological Changes under Missing Modalities [5.109460371388953]
本稿では,AnchoreD MultimodAl Physiological Transformer (ADAPT)を紹介した。
本研究は,2つの実生活シナリオにおける生理的変化を検出することに焦点を当て,特定のトリガーによって誘発される個人におけるストレスと,$g$-forcesによって誘発される意識喪失に焦点を当てた。
論文 参考訳(メタデータ) (2024-07-04T11:05:14Z) - Multimodal Fusion on Low-quality Data: A Comprehensive Survey [110.22752954128738]
本稿では,野生におけるマルチモーダル核融合の共通課題と最近の進歩について考察する。
低品質データ上でのマルチモーダル融合で直面する4つの主な課題を同定する。
この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。
論文 参考訳(メタデータ) (2024-04-27T07:22:28Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。