論文の概要: EI: Early Intervention for Multimodal Imaging based Disease Recognition
- arxiv url: http://arxiv.org/abs/2603.17514v1
- Date: Wed, 18 Mar 2026 09:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.597955
- Title: EI: Early Intervention for Multimodal Imaging based Disease Recognition
- Title(参考訳): EI:マルチモーダルイメージングによる疾患認識の早期介入
- Authors: Qijie Wei, Hailan Lin, Xirong Li,
- Abstract要約: 単一画像埋め込み後の融合」は,マルチモーダルデータの相補的および相関的な情報を十分に活用できない。
ラベル付きマルチモーダル医療画像の不足は、自然画像からのドメインシフトと相まって、医療画像の埋め込みに最先端のVision Foundation Modelsを使用することを妨げる。
1つのモダリティをターゲットとして、残りを参照として扱うことで、EIは、ターゲットモダリティの埋め込みプロセスを制御するために、参照からの高レベルなセマンティックトークンを介入トークンとして利用する。
- 参考スコア(独自算出の注目度): 7.68204965964775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current methods for multimodal medical imaging based disease recognition face two major challenges. First, the prevailing "fusion after unimodal image embedding" paradigm cannot fully leverage the complementary and correlated information in the multimodal data. Second, the scarcity of labeled multimodal medical images, coupled with their significant domain shift from natural images, hinders the use of cutting-edge Vision Foundation Models (VFMs) for medical image embedding. To jointly address the challenges, we propose a novel Early Intervention (EI) framework. Treating one modality as target and the rest as reference, EI harnesses high-level semantic tokens from the reference as intervention tokens to steer the target modality's embedding process at an early stage. Furthermore, we introduce Mixture of Low-varied-Ranks Adaptation (MoR), a parameter-efficient fine-tuning method that employs a set of low-rank adapters with varied ranks and a weight-relaxed router for VFM adaptation. Extensive experiments on three public datasets for retinal disease, skin lesion, and keen anomaly classification verify the effectiveness of the proposed method against a number of competitive baselines.
- Abstract(参考訳): マルチモーダル・メディカルイメージングに基づく疾患認識の現在の手法は2つの大きな課題に直面している。
第一に、マルチモーダルデータにおける補完的および相関的な情報を完全に活用できない「一元画像埋め込み後の融合」パラダイムが主流である。
第二に、ラベル付きマルチモーダル医療画像の不足と、自然画像からのドメインシフトが相まって、医療画像の埋め込みに最先端のVision Foundation Models(VFM)の使用を妨げる。
課題を共同で解決するために,我々は新しい早期介入(EI)フレームワークを提案する。
1つのモダリティをターゲットとして、残りを参照として扱うことで、EIは、ターゲットモダリティの埋め込みプロセスを早期に制御するために、参照からの高レベルなセマンティックトークンを介入トークンとして利用する。
さらに,パラメータ効率のよい微調整手法であるMixture of Low-varied-Ranks Adaptation (MoR)を導入する。
網膜疾患,皮膚病変,鋭い異常分類の3つの公開データセットに対する広範囲な実験により,提案手法の有効性が検証された。
関連論文リスト
- MM-DINOv2: Adapting Foundation Models for Multi-Modal Medical Image Analysis [19.063517827476826]
MM-DINOv2(MM-DINOv2)は,マルチモーダル・メディカル・イメージングのための事前学習型視覚基盤モデルDINOv2に適応する新しいフレームワークである。
本手法では,マルチモーダル・パッチの埋め込みを取り入れ,視覚基盤モデルによりマルチモーダル・イメージングデータを効果的に処理することができる。
本手法は外部テストセットで0.6のマシューズ相関係数(MCC)を達成し、最先端の教師付きアプローチを+11.1%超える。
論文 参考訳(メタデータ) (2025-09-08T12:34:15Z) - OCL: Ordinal Contrastive Learning for Imputating Features with Progressive Labels [4.434835769977399]
本稿では,全被写体を維持しつつ,多様な画像特徴を活用できる全体像特徴量計算手法を提案する。
提案手法は,共有埋め込み空間における様々なモーダルの全体像特徴計算を促進する。
実験の結果,本ネットワークは統計解析や計算基準に対する分類に好適な結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2025-03-03T07:23:29Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - DiffMIC: Dual-Guidance Diffusion Network for Medical Image
Classification [32.67098520984195]
一般医用画像分類のための拡散モデル(DiffMIC)を提案する。
実験の結果,DiffMICは最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-03-19T09:15:45Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。