論文の概要: AMF-MedIT: An Efficient Align-Modulation-Fusion Framework for Medical Image-Tabular Data
- arxiv url: http://arxiv.org/abs/2506.19439v1
- Date: Tue, 24 Jun 2025 09:10:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.564504
- Title: AMF-MedIT: An Efficient Align-Modulation-Fusion Framework for Medical Image-Tabular Data
- Title(参考訳): AMF-MedIT : 医用画像タブラリデータのための効率的なアライメント制御融合フレームワーク
- Authors: Congjing Yu, Jing Ye, Yang Liu, Xiaodong Zhang, Zhiyong Zhang,
- Abstract要約: AMF-MedITは医用画像と表データ統合のための効率的なAlign-Modulation-Fusionフレームワークである。
AMF-MedITはマルチモーダル性能とデータ効率のバランスが良い。
- 参考スコア(独自算出の注目度): 7.265406812965239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal medical analysis combining image and tabular data has gained increasing attention. However, effective fusion remains challenging due to cross-modal discrepancies in feature dimensions and modality contributions, as well as the noise from high-dimensional tabular inputs. To address these problems, we present AMF-MedIT, an efficient Align-Modulation-Fusion framework for medical image and tabular data integration, particularly under data-scarce conditions. To harmonize dimension discrepancies and dynamically adjust modality contributions, we propose the Adaptive Modulation and Fusion (AMF) module, a novel modulation-based fusion paradigm with a streamlined architecture. We first derive the modulation objectives and introduce a modality confidence ratio, enabling the incorporation of prior knowledge into the fusion process. Then, the feature masks, density and leakage losses are proposed to achieve the modulation objectives. Additionally, we introduce FT-Mamba, a powerful tabular encoder leveraging a selective mechanism to handle noisy medical tabular data efficiently. Furthermore, interpretability studies are conducted to explore how different tabular encoders supervise the imaging modality during contrastive pretraining for the first time. Extensive experiments demonstrate that AMF-MedIT achieves a superior balance between multimodal performance and data efficiency while showing strong adaptability to incomplete tabular data. Interpretability analysis also highlights FT-Mamba's capabilities in extracting distinct tabular features and guiding the image encoder toward more accurate and flexible attention patterns.
- Abstract(参考訳): 画像と表データを組み合わせたマルチモーダル医療分析が注目されている。
しかし、特徴次元とモダリティの寄与におけるクロスモーダルな相違や、高次元のグラフ入力からのノイズにより、効果的な融合は依然として困難である。
これらの問題に対処するため,医療画像と表層データの統合,特にデータスカース条件下での効率的なAlign-Modulation-FusionフレームワークであるAMF-MedITを提案する。
そこで我々は, 適応変調・融合モジュール (AMF) を提案する。
まず、変調目標を導出し、融合プロセスに事前知識を組み込むことが可能なモダリティ信頼率を導入する。
そして, 変調目標を達成するため, 特徴マスク, 密度, 漏洩損失を提案する。
さらに、ノイズの多い医療用表データの処理を効率的に行うための選択的なメカニズムを活用する強力な表型エンコーダであるFT-Mambaを導入する。
さらに,表層エンコーダの違いが,コントラスト前訓練における画像モダリティをいかに監督するかを検討するために,解釈可能性の研究を行った。
AMF-MedITは,不完全な表データに強い適応性を示しながら,マルチモーダル性能とデータ効率のバランスが良好であることを示す。
解釈可能性分析はまた、FT-Mambaの異なる表の特徴を抽出し、画像エンコーダをより正確で柔軟な注意パターンに導く能力を強調している。
関連論文リスト
- Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - ITCFN: Incomplete Triple-Modal Co-Attention Fusion Network for Mild Cognitive Impairment Conversion Prediction [12.893857146169045]
アルツハイマー病(英語: Alzheimer's disease、AD)は、高齢者の神経変性疾患である。
軽度認知障害(MCI)の早期予測と時間的介入は、ADに進むリスクを減少させる可能性がある。
論文 参考訳(メタデータ) (2025-01-20T05:12:31Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Images in Discrete Choice Modeling: Addressing Data Isomorphism in
Multi-Modality Inputs [77.54052164713394]
本稿では,離散選択モデリング(DCM)と機械学習の交わりについて考察する。
本稿では,DCMフレームワーク内の従来の表型入力と同型情報を共有する高次元画像データの埋め込み結果について検討する。
論文 参考訳(メタデータ) (2023-12-22T14:33:54Z) - AdaFuse: Adaptive Medical Image Fusion Based on Spatial-Frequential
Cross Attention [6.910879180358217]
本稿では,周波数誘導型アテンション機構によりマルチモーダル画像情報を適応的に融合させるAdaFuseを提案する。
提案手法は,視覚的品質と定量的指標の両方の観点から,最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-10-09T07:10:30Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。