論文の概要: AMF-MedIT: An Efficient Align-Modulation-Fusion Framework for Medical Image-Tabular Data
- arxiv url: http://arxiv.org/abs/2506.19439v2
- Date: Tue, 16 Sep 2025 04:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 15:46:32.786212
- Title: AMF-MedIT: An Efficient Align-Modulation-Fusion Framework for Medical Image-Tabular Data
- Title(参考訳): AMF-MedIT : 医用画像タブラリデータのための効率的なアライメント制御融合フレームワーク
- Authors: Congjing Yu, Jing Ye, Yang Liu, Xiaodong Zhang, Zhiyong Zhang,
- Abstract要約: AMF-MedITは医用画像と表データ統合のための効率的なフレームワークである。
次元の相違を調和させ、モダリティの寄与を動的にバランスさせる。
マルチモーダル分類タスクにおける精度、堅牢性、データの効率性が向上する。
- 参考スコア(独自算出の注目度): 7.738256774143484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal medical analysis combining image and tabular data has gained increasing attention. However, effective fusion remains challenging due to cross-modal discrepancies in feature dimensions and modality contributions, as well as the noise from high-dimensional tabular inputs. To address these problems, we present AMF-MedIT, an efficient Align-Modulation-Fusion framework for medical image and tabular data integration, particularly under data-scarce conditions. Built upon a self-supervised learning strategy, we introduce the Adaptive Modulation and Fusion (AMF) module, a novel, streamlined fusion paradigm that harmonizes dimension discrepancies and dynamically balances modality contributions. It integrates prior knowledge to guide the allocation of modality contributions in the fusion and employs feature masks together with magnitude and leakage losses to adjust the dimensionality and magnitude of unimodal features. Additionally, we develop FT-Mamba, a powerful tabular encoder leveraging a selective mechanism to handle noisy medical tabular data efficiently. Extensive experiments, including simulations of clinical noise, demonstrate that AMF-MedIT achieves superior accuracy, robustness, and data efficiency across multimodal classification tasks. Interpretability analyses further reveal how FT-Mamba shapes multimodal pretraining and enhances the image encoder's attention, highlighting the practical value of our framework for reliable and efficient clinical artificial intelligence applications.
- Abstract(参考訳): 画像と表データを組み合わせたマルチモーダル医療分析が注目されている。
しかし、特徴次元とモダリティの寄与におけるクロスモーダルな相違や、高次元のグラフ入力からのノイズにより、効果的な融合は依然として困難である。
これらの問題に対処するため,医療画像と表層データの統合,特にデータスカース条件下での効率的なAlign-Modulation-FusionフレームワークであるAMF-MedITを提案する。
自己指導型学習戦略を基盤として,適応変調・融合(AMF)モジュールを導入する。
融合におけるモダリティ寄与の割り当てを導くための事前知識を統合し、一様特徴の次元と大きさを調整するために、大きさと漏れの損失と共に特徴マスクを使用する。
さらに,ノイズの多い医療用表データの処理を効率的に行うための選択的なメカニズムを活用する強力な表型エンコーダであるFT-Mambaを開発した。
臨床ノイズのシミュレーションを含む広範囲な実験は、AMF-MedITがマルチモーダル分類タスクにおいて優れた精度、堅牢性、データ効率を達成することを示した。
さらに、FT-Mambaがマルチモーダルプレトレーニングをどのように形成し、画像エンコーダの注意を喚起し、信頼性と効率的な臨床人工知能応用のためのフレームワークの実用的価値を強調した。
関連論文リスト
- Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - ITCFN: Incomplete Triple-Modal Co-Attention Fusion Network for Mild Cognitive Impairment Conversion Prediction [12.893857146169045]
アルツハイマー病(英語: Alzheimer's disease、AD)は、高齢者の神経変性疾患である。
軽度認知障害(MCI)の早期予測と時間的介入は、ADに進むリスクを減少させる可能性がある。
論文 参考訳(メタデータ) (2025-01-20T05:12:31Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Images in Discrete Choice Modeling: Addressing Data Isomorphism in
Multi-Modality Inputs [77.54052164713394]
本稿では,離散選択モデリング(DCM)と機械学習の交わりについて考察する。
本稿では,DCMフレームワーク内の従来の表型入力と同型情報を共有する高次元画像データの埋め込み結果について検討する。
論文 参考訳(メタデータ) (2023-12-22T14:33:54Z) - AdaFuse: Adaptive Medical Image Fusion Based on Spatial-Frequential
Cross Attention [6.910879180358217]
本稿では,周波数誘導型アテンション機構によりマルチモーダル画像情報を適応的に融合させるAdaFuseを提案する。
提案手法は,視覚的品質と定量的指標の両方の観点から,最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-10-09T07:10:30Z) - Missing-modality Enabled Multi-modal Fusion Architecture for Medical
Data [8.472576865966744]
マルチモーダルデータを融合することで、ディープラーニングモデルの性能を向上させることができる。
欠失モダリティは、患者の特異性によって医療データに共通する。
本研究では、欠落したモダリティに対して堅牢な医療データのための効率的なマルチモーダル融合アーキテクチャを開発した。
論文 参考訳(メタデータ) (2023-09-27T09:46:07Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。