論文の概要: MedMoE: Modality-Specialized Mixture of Experts for Medical Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2506.08356v2
- Date: Wed, 11 Jun 2025 12:15:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.049522
- Title: MedMoE: Modality-Specialized Mixture of Experts for Medical Vision-Language Understanding
- Title(参考訳): MedMoE: 医療ビジョン理解の専門家のモダリティに特化した混合
- Authors: Shivang Chopra, Gabriela Sanchez-Rodriguez, Lingchao Mao, Andrew J Feola, Jing Li, Zsolt Kira,
- Abstract要約: 診断コンテキストに基づいて視覚表現を適応する視覚言語処理フレームワークであるMedMoEを提案する。
MedMoEには、レポートタイプに条件付きMixture-of-Experts (MoE)モジュールが組み込まれている。
このフレームワークは、推論においてモダリティ固有の監督を必要とせず、テキスト記述と整合した局所的な視覚表現を生成する。
- 参考スコア(独自算出の注目度): 20.11746641490511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Different medical imaging modalities capture diagnostic information at varying spatial resolutions, from coarse global patterns to fine-grained localized structures. However, most existing vision-language frameworks in the medical domain apply a uniform strategy for local feature extraction, overlooking the modality-specific demands. In this work, we present MedMoE, a modular and extensible vision-language processing framework that dynamically adapts visual representation based on the diagnostic context. MedMoE incorporates a Mixture-of-Experts (MoE) module conditioned on the report type, which routes multi-scale image features through specialized expert branches trained to capture modality-specific visual semantics. These experts operate over feature pyramids derived from a Swin Transformer backbone, enabling spatially adaptive attention to clinically relevant regions. This framework produces localized visual representations aligned with textual descriptions, without requiring modality-specific supervision at inference. Empirical results on diverse medical benchmarks demonstrate that MedMoE improves alignment and retrieval performance across imaging modalities, underscoring the value of modality-specialized visual representations in clinical vision-language systems.
- Abstract(参考訳): 異なる医用画像モダリティは、粗いグローバルパターンからきめ細かい局所構造に至るまで、様々な空間解像度で診断情報をキャプチャする。
しかし、医療領域の既存の視覚言語フレームワークのほとんどは、モダリティ固有の要求を見越して、局所的な特徴抽出に統一的な戦略を適用している。
本稿では,診断コンテキストに基づいて視覚表現を動的に適応する,モジュール型で拡張可能な視覚言語処理フレームワークであるMedMoEを紹介する。
MedMoEには、レポートタイプに条件付きMixture-of-Experts (MoE)モジュールが組み込まれている。
これらの専門家は、スウィントランスフォーマーのバックボーンから派生した特徴ピラミッドを操作し、臨床的に関連する領域に空間的に適応的に注意を向けることを可能にする。
このフレームワークは、推論においてモダリティ固有の監督を必要とせず、テキスト記述と整合した局所的な視覚表現を生成する。
多様な医用ベンチマークによる実験結果から,MedMoEは画像モダリティ間のアライメントと検索性能を向上し,臨床視覚言語システムにおけるモダリティに特化された視覚表現の価値を裏付けることが示された。
関連論文リスト
- PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging [6.411386758550256]
PRS-Medは、視覚言語モデルとセグメンテーション機能を統合し、正確なセグメンテーションマスクとそれに対応する空間推論出力の両方を生成するフレームワークである。
MMRSデータセットは、医療画像における位置推論データの欠如に対処するために、多様な空間的な質問応答ペアを提供する。
論文 参考訳(メタデータ) (2025-05-17T06:42:28Z) - Describe Anything in Medical Images [32.785523415007]
医用画像の領域別キャプションに大規模視覚言語モデルを活用する,初の包括的フレームワークであるMedDAMを提案する。
MedDAMは特定の画像モダリティに合わせて医療専門家が設計したプロンプトを採用し、堅牢な評価ベンチマークを確立する。
本ベンチマークは,属性レベル検証タスクによる臨床事実性に着目し,MedDAMと他の大規模視覚言語モデルの両方を評価する。
論文 参考訳(メタデータ) (2025-05-09T05:45:31Z) - MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation [4.760537994346813]
医用画像報告は、放射線画像から構造化された臨床記述を生成することを目的としている。
そこで我々は, ゲート型クロスアライメント融合モデルであるMicarVLMoEを提案する。
我々は、MIRをCTスキャン、網膜イメージング、MRIスキャン、Grog pathology imageに拡張し、最先端の結果を報告する。
論文 参考訳(メタデータ) (2025-04-29T01:26:02Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。