論文の概要: CX-Mind: A Pioneering Multimodal Large Language Model for Interleaved Reasoning in Chest X-ray via Curriculum-Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.03733v1
- Date: Thu, 31 Jul 2025 05:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.343813
- Title: CX-Mind: A Pioneering Multimodal Large Language Model for Interleaved Reasoning in Chest X-ray via Curriculum-Guided Reinforcement Learning
- Title(参考訳): CX-Mind: カリキュラムガイド強化学習による胸部X線インターリーブ推論のためのマルチモーダル大言語モデル
- Authors: Wenjie Li, Yujie Zhang, Haoran Sun, Yueqi Li, Fanrui Zhang, Mengzhe Xu, Victoria Borja Clausich, Sade Mellin, Renhao Yang, Chenrun Wang, Jethro Zih-Shuo Wang, Shiyi Yao, Gen Li, Yidong Xu, Hanyu Wang, Yilin Huang, Angela Lin Wang, Chen Shi, Yin Zhang, Jianan Guo, Luqi Yang, Renxuan Li, Yang Xu, Jiawei Liu, Yao Zhang, Lei Liu, Carlos Gutiérrez SanRomán, Lei Wang,
- Abstract要約: 胸部X線(CXR)課題に対するインターリーブ"思考答え"推論を実現するための最初の生成モデルであるCX-Mindを提案する。
CX-Mindはカリキュラム強化学習と検証プロセス報酬(RL-VPR)によって駆動される
CX-Mindは、視覚的理解、テキスト生成、アライメントにおいて、既存の医用および一般ドメインMLLMを著しく上回っている。
- 参考スコア(独自算出の注目度): 28.737391224748798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chest X-ray (CXR) imaging is one of the most widely used diagnostic modalities in clinical practice, encompassing a broad spectrum of diagnostic tasks. Recent advancements have seen the extensive application of reasoning-based multimodal large language models (MLLMs) in medical imaging to enhance diagnostic efficiency and interpretability. However, existing multimodal models predominantly rely on "one-time" diagnostic approaches, lacking verifiable supervision of the reasoning process. This leads to challenges in multi-task CXR diagnosis, including lengthy reasoning, sparse rewards, and frequent hallucinations. To address these issues, we propose CX-Mind, the first generative model to achieve interleaved "think-answer" reasoning for CXR tasks, driven by curriculum-based reinforcement learning and verifiable process rewards (CuRL-VPR). Specifically, we constructed an instruction-tuning dataset, CX-Set, comprising 708,473 images and 2,619,148 samples, and generated 42,828 high-quality interleaved reasoning data points supervised by clinical reports. Optimization was conducted in two stages under the Group Relative Policy Optimization framework: initially stabilizing basic reasoning with closed-domain tasks, followed by transfer to open-domain diagnostics, incorporating rule-based conditional process rewards to bypass the need for pretrained reward models. Extensive experimental results demonstrate that CX-Mind significantly outperforms existing medical and general-domain MLLMs in visual understanding, text generation, and spatiotemporal alignment, achieving an average performance improvement of 25.1% over comparable CXR-specific models. On real-world clinical dataset (Rui-CXR), CX-Mind achieves a mean recall@1 across 14 diseases that substantially surpasses the second-best results, with multi-center expert evaluations further confirming its clinical utility across multiple dimensions.
- Abstract(参考訳): 胸部X線画像(CXR)は、臨床実践において最も広く用いられている診断法の一つであり、幅広い診断タスクを含んでいる。
近年、診断効率と解釈可能性を高めるために、推論に基づくマルチモーダル言語モデル(MLLM)が医療画像に広く応用されている。
しかし、既存のマルチモーダルモデルは、主に「ワンタイム」診断アプローチに依存しており、推論プロセスの検証可能な監督が欠如している。
これは、長期の推論、スパース報酬、頻繁な幻覚を含むマルチタスクCXR診断の課題に繋がる。
これらの課題に対処するために,カリキュラムベースの強化学習と検証可能なプロセス報酬(CuRL-VPR)を駆使して,CXRタスクのインターリーブされた「考察」推論を実現する最初の生成モデルであるCX-Mindを提案する。
具体的には,708,473枚の画像と2,619,148個のサンプルからなるCX-Setを作成した。
グループ相対政策最適化フレームワークでは、最初はクローズドドメインタスクによる基本的な推論を安定化し、その後、オープンドメイン診断に移行し、事前訓練された報酬モデルの必要性を回避するためにルールベースの条件付きプロセス報酬を取り入れた。
CX-Mindは、視覚的理解、テキスト生成、時空間アライメントにおいて既存の医用および一般ドメインMLLMを著しく上回り、CXR固有のモデルよりも平均25.1%の性能向上を達成した。
実世界の臨床データセット(Rui-CXR)では、CX-Mindが平均リコール@1を達成した。
関連論文リスト
- Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - CLARIFID: Improving Radiology Report Generation by Reinforcing Clinically Accurate Impressions and Enforcing Detailed Findings [1.515687944002438]
専門家の2段階のワークフローを反映して診断精度を直接最適化する新しいフレームワークであるCLARIFIDを提案する。
CLARIFIDは、セクション認識事前学習を通じて、FundingsからImpressionへの論理フローを学習する。
本手法は,NLGの基準値と臨床意識スコアの両方において,優れた臨床効果を達成し,既存の基準値よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-23T05:57:59Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - CXR-LT 2024: A MICCAI challenge on long-tailed, multi-label, and zero-shot disease classification from chest X-ray [64.2434525370243]
CXR-LTシリーズは、胸部X線を用いた肺疾患の分類を強化するために設計されたコミュニティ主導のイニシアチブである。
CXR-LT 2024はデータセットを377,110の胸部X線(CXR)と45の疾患ラベルに拡張し、19の新しい稀な疾患の発見を含んでいる。
本稿では、CXR-LT 2024の概要を述べるとともに、データキュレーションプロセスの詳細と最先端ソリューションの統合について述べる。
論文 参考訳(メタデータ) (2025-06-09T17:53:31Z) - Interpreting Chest X-rays Like a Radiologist: A Benchmark with Clinical Reasoning [18.15610003617933]
胸部X線(CXR)解釈のための新しい多段階視覚質問応答(VQA)データセットであるCXRTrekを提案する。
このデータセットは、現実の臨床環境で放射線技師が使用する診断的推論プロセスを明示的にシミュレートするように設計されている。
本稿では,新たな視覚言語大モデル (VLLM) であるCXRTrekNetを提案する。
論文 参考訳(メタデータ) (2025-05-29T06:30:40Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - A foundation model for generalizable disease diagnosis in chest X-ray images [40.9095393430871]
CXRBaseは,非ラベリングなCXR画像から多目的表現を学習するための基礎モデルである。
CXRBaseは1.04百万の未ラベルのCXRイメージのデータセットでトレーニングされている。
ラベル付きデータで微調整され、疾患検出の性能を高める。
論文 参考訳(メタデータ) (2024-10-11T14:41:27Z) - DiCoM -- Diverse Concept Modeling towards Enhancing Generalizability in Chest X-Ray Studies [6.83819481805979]
胸部X線(胸部X線、CXR)は、広く用いられている画像モダリティである。
自己指導型プレトレーニングは、多くの下流視覚タスクにおいて教師付きプレトレーニングよりも優れていることが証明されている。
本稿では,新しい自己教師型トレーニングパラダイムであるDiCoMについて紹介する。
論文 参考訳(メタデータ) (2024-02-22T20:51:37Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。