論文の概要: MedReason-R1: Learning to Reason for CT Diagnosis with Reinforcement Learning and Local Zoom
- arxiv url: http://arxiv.org/abs/2510.19626v1
- Date: Wed, 22 Oct 2025 14:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.922869
- Title: MedReason-R1: Learning to Reason for CT Diagnosis with Reinforcement Learning and Local Zoom
- Title(参考訳): MedReason-R1:強化学習と局所ズームによるCT診断のための推論学習
- Authors: Yifan Li, Fenghe Tang, Yingtai Li, Shaohua Kevin Zhou,
- Abstract要約: VLM(General-purpose Vision-Language Models)は、自然画像の詳細な記述を生成する強力な能力を示す。
しかし、医療分野における彼らのパフォーマンスは、比較的簡単な作業であっても、まだ最適以下である。
MedReason-R1は、疾患診断のための明確な推論プロセスを持つ医療用VLMである。
- 参考スコア(独自算出の注目度): 5.198944594852047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose large Vision-Language Models (VLMs) demonstrate strong capabilities in generating detailed descriptions for natural images. However, their performance in the medical domain remains suboptimal, even for relatively straightforward tasks, primarily due to the lack of large-scale, high-quality, specialized medical imaging datasets and the neglect of the diagnostic process that progresses from coarse to fine-grained. To address the first issue, we construct the CT-RATE-VQA dataset, which has 84K QA pairs. For the second issue, we propose MedReason-R1, a medical VLM with explicit reasoning process for disease diagnosis. MedReason-R1 incorporates a novel strategy that embeds zoom-in disease region-of-interest areas into the image, highlighting the crucial role of both global localization and disease-specific details in enhancing the model's diagnostic performance. Furthermore, we introduce the GRPO reinforcement learning framework to MedReason-R1, which enables effective reasoning without relying on costly manual annotations. Compared to recent general-purpose and medical VLMs, MedReason-R1 achieves state-of-the-art performance in CT disease diagnosis while retaining generalization. The code, checkpoints, and dataset are available at: https://github.com/Leevan001/MedReason-R1
- Abstract(参考訳): 汎用大規模視覚言語モデル(VLM)は、自然画像の詳細な記述を生成する強力な能力を示す。
しかし、医療領域におけるそれらのパフォーマンスは、比較的簡単な作業であっても、主に大規模で高品質な特殊な医療画像データセットの欠如と、粗いものから細かいものへと進行する診断過程の欠如により、最適以下である。
最初の問題に対処するため,84KのQAペアを持つCT-RATE-VQAデータセットを構築した。
第2号では, 疾患診断のための明確な推論プロセスを備えた医用VLMであるMedReason-R1を提案する。
MedReason-R1は、画像にズームイン病気領域を埋め込む新しい戦略を取り入れており、診断性能を向上させる上で、グローバルなローカライゼーションと疾患固有の詳細の両方において重要な役割を強調している。
さらに,MedReason-R1にGRPO強化学習フレームワークを導入する。
MedReason-R1 は最近の汎用的および医療的 VLM と比較して,一般化を維持しつつ,CT 疾患の診断における最先端のパフォーマンスを実現している。
コード、チェックポイント、データセットは、https://github.com/Leevan001/MedReason-R1.comで入手できる。
関連論文リスト
- A Chain of Diagnosis Framework for Accurate and Explainable Radiology Report Generation [4.61181046331792]
臨床的に正確かつ説明可能なRRGの診断過程の連鎖を維持できる,診断の連鎖(CoD)というフレームワークを提案する。
説明可能性を高めるために、診断基盤モジュールは、診断が参照として機能するQA診断と生成された文とを一致させるように設計されている。
本研究は,1)QAペアと病変箱を用いた完全ラベルRRGデータセット,2)病変位置と重症度を記述した報告の精度を評価するための評価ツール,3)CoDの有効性を実証するための広範な実験に導いた。
論文 参考訳(メタデータ) (2025-08-13T07:32:28Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。
医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。
我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文 参考訳(メタデータ) (2025-03-18T06:12:38Z) - MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis [28.421857904824627]
MiniGPT-Medは、大規模言語モデルから派生したヴィジュアル言語モデルであり、医学的応用に適したものである。
医療報告生成、視覚的質問応答(VQA)、医療画像内の疾患識別などのタスクを実行することができる。
医療報告生成の最先端性能は,従来の最良モデルよりも19%高い精度で達成される。
論文 参考訳(メタデータ) (2024-07-04T18:21:10Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。