論文の概要: A Foundation Model for Chest X-ray Interpretation with Grounded Reasoning via Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.03906v1
- Date: Thu, 04 Sep 2025 06:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.070384
- Title: A Foundation Model for Chest X-ray Interpretation with Grounded Reasoning via Online Reinforcement Learning
- Title(参考訳): オンライン強化学習による接地推論による胸部X線解釈の基礎モデル
- Authors: Qika Lin, Yifan Zhu, Bin Pu, Ling Huang, Haoran Luo, Jingying Ma, Zhen Peng, Tianzhe Zhao, Fangzhi Xu, Jian Zhang, Kai He, Zhonghong Ou, Swapnil Mishra, Mengling Feng,
- Abstract要約: DeepMedix-R1は、胸部X線(CXR)の解釈のための総合医療用FMである。
クエリ毎に、画像のローカルリージョンに関連付けられた回答と推論ステップの両方を生成する。
- 参考スコア(独自算出の注目度): 41.27625400846057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical foundation models (FMs) have shown tremendous promise amid the rapid advancements in artificial intelligence (AI) technologies. However, current medical FMs typically generate answers in a black-box manner, lacking transparent reasoning processes and locally grounded interpretability, which hinders their practical clinical deployments. To this end, we introduce DeepMedix-R1, a holistic medical FM for chest X-ray (CXR) interpretation. It leverages a sequential training pipeline: initially fine-tuned on curated CXR instruction data to equip with fundamental CXR interpretation capabilities, then exposed to high-quality synthetic reasoning samples to enable cold-start reasoning, and finally refined via online reinforcement learning to enhance both grounded reasoning quality and generation performance. Thus, the model produces both an answer and reasoning steps tied to the image's local regions for each query. Quantitative evaluation demonstrates substantial improvements in report generation (e.g., 14.54% and 31.32% over LLaVA-Rad and MedGemma) and visual question answering (e.g., 57.75% and 23.06% over MedGemma and CheXagent) tasks. To facilitate robust assessment, we propose Report Arena, a benchmarking framework using advanced language models to evaluate answer quality, further highlighting the superiority of DeepMedix-R1. Expert review of generated reasoning steps reveals greater interpretability and clinical plausibility compared to the established Qwen2.5-VL-7B model (0.7416 vs. 0.2584 overall preference). Collectively, our work advances medical FM development toward holistic, transparent, and clinically actionable modeling for CXR interpretation.
- Abstract(参考訳): 医療ファウンデーションモデル(FM)は、人工知能(AI)技術の急速な進歩の中で、非常に有望であることを示している。
しかし、現在の医療用FMは一般にブラックボックス方式で回答を出し、透明な推論プロセスが欠如し、局所的に理解しにくいため、実践的な臨床展開を妨げている。
この目的のために,胸部X線(CXR)解釈のための総合医療用FMであるDeepMedix-R1を紹介する。
最初はキュレートされたCXR命令データに基づいて微調整され、基本的なCXR解釈能力を備え、その後、高品質な合成推論サンプルに露出してコールドスタート推論を実現し、最終的にオンライン強化学習によって改善され、基礎となる推論品質と生成性能の両方が向上する。
このモデルでは,各クエリに対して,画像の局所領域に関連付けられた回答と推論のステップを生成する。
定量的評価では、レポート生成(LLaVA-RadとMedGemmaよりも14.54%、31.32%)と視覚的質問応答(MedGemmaとCheXagentより57.75%、および23.06%)のタスクが大幅に改善されている。
頑健な評価を容易にするため,先進言語モデルを用いたベンチマークフレームワークであるReport Arenaを提案し,DeepMedix-R1の優位性を強調した。
Qwen2.5-VL-7Bモデル(0.7416対0.2584対0.2584)と比較して、生成した推論ステップのエキスパートレビューにより、解釈可能性と臨床的妥当性が向上した。
本研究は,CXR解釈のための総合的,透過的,臨床的に実行可能なモデリングに向けて,医療用FMの開発を総合的に進める。
関連論文リスト
- X-Ray-CoT: Interpretable Chest X-ray Diagnosis with Vision-Language Models via Chain-of-Thought Reasoning [0.0]
胸部X線診断のための新しいフレームワークであるX線CoT(Chest X-ray Chain-of-Thought)を提案する。
X線-CoTは、まずマルチモーダル特徴と視覚概念を抽出することにより、ヒトの放射線学者の「チェーン・オブ・思想」をシミュレートする。
80.52%、F1スコア78.65%のバランスド精度で、競争力のある定量的パフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-08-17T18:00:41Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
推論は、医用画像解析の進歩における重要なフロンティアである。
我々は、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。
MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上している。
論文 参考訳(メタデータ) (2025-02-26T23:57:34Z) - A Vision-Language Foundation Model to Enhance Efficiency of Chest X-ray Interpretation [22.8169684575764]
初期診断試験としての費用効果のため、毎年14億個の胸部X線(CXR)が実施されている。
この規模の放射線学研究は、CXRの解釈と文書を合理化する重要な機会を提供する。
我々は、視覚言語基礎モデル(CheXagent)をトレーニングするために、大規模データセット(CheXinstruct)を構築した。
論文 参考訳(メタデータ) (2024-01-22T18:51:07Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。