論文の概要: MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision
- arxiv url: http://arxiv.org/abs/2508.08177v1
- Date: Mon, 11 Aug 2025 16:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.22013
- Title: MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision
- Title(参考訳): MedReasoner: 臨床思想からピクセルレベル精度までの基礎となる強化学習ドライブ
- Authors: Zhonghao Yan, Muxi Diao, Yuxuan Yang, Jiayuan Xu, Kaizhou Zhang, Ruoyan Jing, Lele Yang, Yanxi Liu, Kongming Liang, Zhanyu Ma,
- Abstract要約: 我々はまず,新しい視覚言語タスクであるUMRG(Unified Medical Reasoning Grounding)を定義した。
第二にU-MRG-14Kは、暗黙の臨床的クエリと推論トレースを伴い、画素レベルのマスクを特徴とする14Kサンプルのデータセットである。
第3に、セグメンテーションから推論を明確に分離するモジュラーフレームワークであるMedReasonerを紹介します。
- 参考スコア(独自算出の注目度): 16.34920560168635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately grounding regions of interest (ROIs) is critical for diagnosis and treatment planning in medical imaging. While multimodal large language models (MLLMs) combine visual perception with natural language, current medical-grounding pipelines still rely on supervised fine-tuning with explicit spatial hints, making them ill-equipped to handle the implicit queries common in clinical practice. This work makes three core contributions. We first define Unified Medical Reasoning Grounding (UMRG), a novel vision-language task that demands clinical reasoning and pixel-level grounding. Second, we release U-MRG-14K, a dataset of 14K samples featuring pixel-level masks alongside implicit clinical queries and reasoning traces, spanning 10 modalities, 15 super-categories, and 108 specific categories. Finally, we introduce MedReasoner, a modular framework that distinctly separates reasoning from segmentation: an MLLM reasoner is optimized with reinforcement learning, while a frozen segmentation expert converts spatial prompts into masks, with alignment achieved through format and accuracy rewards. MedReasoner achieves state-of-the-art performance on U-MRG-14K and demonstrates strong generalization to unseen clinical queries, underscoring the significant promise of reinforcement learning for interpretable medical grounding.
- Abstract(参考訳): 医療画像の診断と治療計画には, 正確な関心領域(ROI)が重要である。
マルチモーダル・大型言語モデル(MLLM)は視覚と自然言語を結合するが、現在の医療接地パイプラインは依然として監督された微調整と明示的な空間的ヒントに依存しており、臨床実践に共通する暗黙的なクエリを扱うには不適当である。
この作品は3つの中心的な貢献をしている。
我々はまず,臨床推論とピクセルレベルのグラウンド化を必要とする新しい視覚言語課題である統一医療推論グラウンドディング(UMRG)を定義した。
第二に、U-MRG-14Kは、暗黙の臨床的クエリと推論トレースとともに、画素レベルのマスクを特徴とする14Kサンプルのデータセットで、10のモダリティ、15のスーパーカテゴリ、108の特定カテゴリにまたがる。
MLLM推論器は強化学習に最適化され,凍結セグメンテーションの専門家は空間的プロンプトをマスクに変換する。
MedReasoner は U-MRG-14K の最先端性能を達成し,診断可能な医療接地のための強化学習の有意な可能性を強調した。
関連論文リスト
- Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models [48.24824129683951]
本稿では,複雑で暗黙的な医療指導に基づくセグメンテーションマスク作成を目的とした新しい課題である医用画像推論セグメンテーションを紹介する。
そこで本稿では,MLLMの推論能力を利用して臨床問題を理解するエンドツーエンドフレームワークであるMedSeg-Rを提案する。
1)画像の解釈と複雑な医用命令の理解を行い,マルチモーダルな中間トークンを生成するグローバルコンテキスト理解モジュール,2)これらのトークンをデコードして正確なセグメンテーションマスクを生成するピクセルレベルのグラウンドモジュールである。
論文 参考訳(メタデータ) (2025-06-12T08:13:38Z) - PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging [6.411386758550256]
PRS-Medは、視覚言語モデルとセグメンテーション機能を統合し、正確なセグメンテーションマスクとそれに対応する空間推論出力の両方を生成するフレームワークである。
MMRSデータセットは、医療画像における位置推論データの欠如に対処するために、多様な空間的な質問応答ペアを提供する。
論文 参考訳(メタデータ) (2025-05-17T06:42:28Z) - MediSee: Reasoning-based Pixel-level Perception in Medical Images [6.405810587061276]
MedSD(Medical Reasoning and Detection)を導入した新しい医療ビジョンタスクについて紹介する。
MedSDの目的は、医療画像に関する暗黙のクエリを理解し、対応するセグメンテーションマスクとターゲットオブジェクトのバウンディングボックスを生成することである。
医学的推論のセグメンテーションと検出のために設計された効果的なベースラインモデルであるメディセーを提案する。
論文 参考訳(メタデータ) (2025-04-15T09:28:53Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。