論文の概要: MoME: Mixture of Visual Language Medical Experts for Medical Imaging Segmentation
- arxiv url: http://arxiv.org/abs/2510.26996v1
- Date: Thu, 30 Oct 2025 20:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.911607
- Title: MoME: Mixture of Visual Language Medical Experts for Medical Imaging Segmentation
- Title(参考訳): MoME:医用画像分割のためのビジュアル言語医療専門家の混在
- Authors: Arghavan Rezvani, Xiangyi Yan, Anthony T. Wu, Kun Han, Pooya Khosravi, Xiaohui Xie,
- Abstract要約: 医用画像のためのビジュアル言語医療専門家の混在であるMoMEを提案する。
MoMEは、Large Language Models (LLM)で広く使われているMixture of Experts (MoE)パラダイムを成功させた。
MoMEは総合的な医用画像セグメンテーションベンチマークで高い性能を示す。
- 参考スコア(独自算出の注目度): 11.391138226492117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we propose MoME, a Mixture of Visual Language Medical Experts, for Medical Image Segmentation. MoME adapts the successful Mixture of Experts (MoE) paradigm, widely used in Large Language Models (LLMs), for medical vision-language tasks. The architecture enables dynamic expert selection by effectively utilizing multi-scale visual features tailored to the intricacies of medical imagery, enriched with textual embeddings. This work explores a novel integration of vision-language models for this domain. Utilizing an assembly of 10 datasets, encompassing 3,410 CT scans, MoME demonstrates strong performance on a comprehensive medical imaging segmentation benchmark. Our approach explores the integration of foundation models for medical imaging, benefiting from the established efficacy of MoE in boosting model performance by incorporating textual information. Demonstrating competitive precision across multiple datasets, MoME explores a novel architecture for achieving robust results in medical image analysis.
- Abstract(参考訳): 本研究では,医用画像セグメンテーションのためのビジュアル言語医療専門家の混在であるMoMEを提案する。
MoMEは、医療ビジョン言語タスクのために、LLM(Large Language Models)で広く使われているMixture of Experts(MoE)パラダイムを成功させた。
このアーキテクチャは、テキスト埋め込みに富んだ医療画像の複雑さに合わせて、マルチスケールの視覚的特徴を効果的に活用することにより、動的専門家選択を可能にする。
本研究は、この領域における視覚言語モデルの新たな統合を探求する。
3,410個のCTスキャンを含む10のデータセットの集合を利用して、MoMEは総合的な医用画像セグメンテーションベンチマークで強力なパフォーマンスを示す。
本研究は, 医用画像の基盤モデルの統合について検討し, テキスト情報の導入によるモデル性能向上におけるMoEの確立した有効性を利用したものである。
複数のデータセット間での競合精度を示すため、MoMEは医療画像解析において堅牢な結果を達成するための新しいアーキテクチャを探求している。
関連論文リスト
- Medverse: A Universal Model for Full-Resolution 3D Medical Image Segmentation, Transformation and Enhancement [15.28003304776022]
インコンテキスト学習は、普遍的な医用画像解析に有望なパラダイムを提供する。
我々は22のデータセットで訓練された3次元医用画像の汎用ICLモデルである textbfMedverse を提案する。
Medverseは、予測を粗いものから細かいものへと段階的に洗練する、次世代の自己回帰型インコンテキスト学習フレームワークを採用している。
論文 参考訳(メタデータ) (2025-09-11T08:10:49Z) - Multimodal Large Language Models for Medical Report Generation via Customized Prompt Tuning [20.195025131749944]
本稿では,冷凍LLMと学習可能なビジュアルエンコーダを組み合わせたMLLMであるMRG-LLMを提案する。
提案手法は, 即時的, 即時的, 即時的なカスタマイズで, 正確な, 対象とするレポート生成を可能にする2つの実装を提案する。
論文 参考訳(メタデータ) (2025-06-18T14:09:34Z) - MedMoE: Modality-Specialized Mixture of Experts for Medical Vision-Language Understanding [20.11746641490511]
診断コンテキストに基づいて視覚表現を適応する視覚言語処理フレームワークであるMedMoEを提案する。
MedMoEには、レポートタイプに条件付きMixture-of-Experts (MoE)モジュールが組み込まれている。
このフレームワークは、推論においてモダリティ固有の監督を必要とせず、テキスト記述と整合した局所的な視覚表現を生成する。
論文 参考訳(メタデータ) (2025-06-10T02:14:15Z) - RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [64.66825253356869]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。
我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。
RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-06T17:43:03Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - LIMIS: Towards Language-based Interactive Medical Image Segmentation [58.553786162527686]
LIMISは、最初の純粋言語に基づく対話型医療画像分割モデルである。
我々は、Grounded SAMを医療領域に適応させ、言語に基づくモデルインタラクション戦略を設計する。
LIMISを3つの公開医療データセット上で,パフォーマンスとユーザビリティの観点から評価した。
論文 参考訳(メタデータ) (2024-10-22T12:13:47Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Multi-modal Understanding and Generation for Medical Images and Text via
Vision-Language Pre-Training [5.119201893752376]
本稿では,トランスフォーマーアーキテクチャと新しいマルチモーダルアテンションマスキング手法を組み合わせた医療ビジョン言語学習システム(MedViLL)を提案する。
我々は,タスク固有のアーキテクチャを含む様々なベースラインに対して,MedViLLのより優れたダウンストリームタスク性能を実証的に示す。
論文 参考訳(メタデータ) (2021-05-24T15:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。