論文の概要: MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2506.10465v1
- Date: Thu, 12 Jun 2025 08:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.644049
- Title: MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models
- Title(参考訳): MedSeg-R:マルチモーダル大言語モデルを用いた医用画像のセグメンテーションの推論
- Authors: Yu Huang, Zelin Peng, Yichen Zhao, Piao Yang, Xiaokang Yang, Wei Shen,
- Abstract要約: 本稿では,複雑で暗黙的な医療指導に基づくセグメンテーションマスク作成を目的とした新しい課題である医用画像推論セグメンテーションを紹介する。
そこで本稿では,MLLMの推論能力を利用して臨床問題を理解するエンドツーエンドフレームワークであるMedSeg-Rを提案する。
1)画像の解釈と複雑な医用命令の理解を行い,マルチモーダルな中間トークンを生成するグローバルコンテキスト理解モジュール,2)これらのトークンをデコードして正確なセグメンテーションマスクを生成するピクセルレベルのグラウンドモジュールである。
- 参考スコア(独自算出の注目度): 48.24824129683951
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Medical image segmentation is crucial for clinical diagnosis, yet existing models are limited by their reliance on explicit human instructions and lack the active reasoning capabilities to understand complex clinical questions. While recent advancements in multimodal large language models (MLLMs) have improved medical question-answering (QA) tasks, most methods struggle to generate precise segmentation masks, limiting their application in automatic medical diagnosis. In this paper, we introduce medical image reasoning segmentation, a novel task that aims to generate segmentation masks based on complex and implicit medical instructions. To address this, we propose MedSeg-R, an end-to-end framework that leverages the reasoning abilities of MLLMs to interpret clinical questions while also capable of producing corresponding precise segmentation masks for medical images. It is built on two core components: 1) a global context understanding module that interprets images and comprehends complex medical instructions to generate multi-modal intermediate tokens, and 2) a pixel-level grounding module that decodes these tokens to produce precise segmentation masks and textual responses. Furthermore, we introduce MedSeg-QA, a large-scale dataset tailored for the medical image reasoning segmentation task. It includes over 10,000 image-mask pairs and multi-turn conversations, automatically annotated using large language models and refined through physician reviews. Experiments show MedSeg-R's superior performance across several benchmarks, achieving high segmentation accuracy and enabling interpretable textual analysis of medical images.
- Abstract(参考訳): 医用画像のセグメンテーションは臨床診断に不可欠であるが、既存のモデルは、明示的な人間の指示に依存し、複雑な臨床問題を理解するためのアクティブな推論能力が欠如しているため、制限されている。
近年のMLLM(Multimodal large language model)の進歩により,QA(Multiical Question-Awering)タスクが改善されているが,ほとんどの手法では正確なセグメンテーションマスクの生成に苦慮し,自動診断への応用が制限されている。
本稿では,複雑で暗黙的な医療指導に基づくセグメンテーションマスク作成を目的とした新しい課題である医用画像推論セグメンテーションを紹介する。
そこで我々は,MLLMの推論能力を活用して臨床的疑問を解釈し,医用画像の正確なセグメンテーションマスクを作成できる,エンドツーエンドのフレームワークであるMedSeg-Rを提案する。
2つのコアコンポーネント上に構築されている。
1)マルチモーダル中間トークンを生成するための複雑な医用指示を解釈し理解するグローバルコンテキスト理解モジュール
2)これらのトークンをデコードして正確なセグメンテーションマスクとテキスト応答を生成するピクセルレベルのグラウンドモジュール。
さらに,医用画像推論セグメンテーションタスクに適した大規模データセットであるMedSeg-QAを紹介する。
これには10,000以上のイメージマスクペアとマルチターン会話が含まれ、大きな言語モデルを使用して自動的に注釈付けされ、医師のレビューを通じて洗練される。
実験により、MedSeg-Rはいくつかのベンチマークで優れた性能を示し、高いセグメンテーション精度を実現し、医療画像のテキスト解析を可能にする。
関連論文リスト
- MediSee: Reasoning-based Pixel-level Perception in Medical Images [6.405810587061276]
MedSD(Medical Reasoning and Detection)を導入した新しい医療ビジョンタスクについて紹介する。
MedSDの目的は、医療画像に関する暗黙のクエリを理解し、対応するセグメンテーションマスクとターゲットオブジェクトのバウンディングボックスを生成することである。
医学的推論のセグメンテーションと検出のために設計された効果的なベースラインモデルであるメディセーを提案する。
論文 参考訳(メタデータ) (2025-04-15T09:28:53Z) - Organ-aware Multi-scale Medical Image Segmentation Using Text Prompt Engineering [17.273290949721975]
既存の医用画像分割法は、画像やビデオなどの一様視覚入力に依存しており、労働集約的な手動アノテーションを必要とする。
医用イメージング技術は、単一のスキャン内で複数の絡み合った臓器をキャプチャし、セグメンテーションの精度をさらに複雑にする。
これらの課題に対処するため、MedSAMは画像特徴とユーザが提供するプロンプトを統合することでセグメンテーションの精度を高めるために開発された。
論文 参考訳(メタデータ) (2025-03-18T01:35:34Z) - MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - LIMIS: Towards Language-based Interactive Medical Image Segmentation [58.553786162527686]
LIMISは、最初の純粋言語に基づく対話型医療画像分割モデルである。
我々は、Grounded SAMを医療領域に適応させ、言語に基づくモデルインタラクション戦略を設計する。
LIMISを3つの公開医療データセット上で,パフォーマンスとユーザビリティの観点から評価した。
論文 参考訳(メタデータ) (2024-10-22T12:13:47Z) - Language-guided Scale-aware MedSegmentor for Lesion Segmentation in Medical Imaging [7.912408164613206]
臨床的には、特定の病変の分節化は診断精度と治療効率を著しく向上させる。
本稿では,与えられたテキスト表現に基づいて,医療画像のターゲット病変をセグメント化する言語誘導型大規模メドセグメンタ(LSMS)を提案する。
我々のLSMSは、計算コストを大幅に下げて、常に優れた性能を実現しています。
論文 参考訳(メタデータ) (2024-08-30T15:22:13Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。