論文の概要: A Reasoning-Enabled Vision-Language Foundation Model for Chest X-ray Interpretation
- arxiv url: http://arxiv.org/abs/2604.00493v1
- Date: Wed, 01 Apr 2026 05:19:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.84342
- Title: A Reasoning-Enabled Vision-Language Foundation Model for Chest X-ray Interpretation
- Title(参考訳): 胸部X線解釈のための推論可能ビジョン言語基礎モデル
- Authors: Yabin Zhang, Chong Wang, Yunhe Gao, Jiaming Liu, Maya Varma, Justin Xu, Sophie Ostmeier, Jin Long, Sergios Gatidis, Seena Dehkharghani, Arne Michalson, Eun Kyoung Hong, Christian Bluethgen, Haiwei Henry Guo, Alexander Victor Ortiz, Stephan Altmayer, Sandhya Bodapati, Joseph David Janizek, Ken Chang, Jean-Benoit Delbrouck, Akshay S. Chaudhari, Curtis P. Langlotz,
- Abstract要約: CXR解釈のための推論可能な視覚言語モデルであるCheXOneを提案する。
CheXOneは、診断予測と明示的で臨床的に根拠付けられた推論トレースを共同で生成する。
55%のケースでは,CheXOneドラフトレポートは常駐レポートと同等かそれ以上であることがわかった。
- 参考スコア(独自算出の注目度): 48.23500302185585
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Chest X-rays (CXRs) are among the most frequently performed imaging examinations worldwide, yet rising imaging volumes increase radiologist workload and the risk of diagnostic errors. Although artificial intelligence (AI) systems have shown promise for CXR interpretation, most generate only final predictions, without making explicit how visual evidence is translated into radiographic findings and diagnostic predictions. We present CheXOne, a reasoning-enabled vision-language model for CXR interpretation. CheXOne jointly generates diagnostic predictions and explicit, clinically grounded reasoning traces that connect visual evidence, radiographic findings, and these predictions. The model is trained on 14.7 million instruction and reasoning samples curated from 30 public datasets spanning 36 CXR interpretation tasks, using a two-stage framework that combines instruction tuning with reinforcement learning to improve reasoning quality. We evaluate CheXOne in zero-shot settings across visual question answering, report generation, visual grounding and reasoning assessment, covering 17 evaluation settings. CheXOne outperforms existing medical and general-domain foundation models and achieves strong performance on independent public benchmarks. A clinical reader study demonstrates that CheXOne-drafted reports are comparable to or better than resident-written reports in 55% of cases, while effectively addressing clinical indications and enhancing both report writing and CXR interpretation efficiency. Further analyses involving radiologists reveal that the generated reasoning traces show high clinical factuality and provide causal support for the final predictions, offering a plausible explanation for the performance gains. These results suggest that explicit reasoning can improve model performance, interpretability and clinical utility in AI-assisted CXR interpretation.
- Abstract(参考訳): 胸部X線(CXR)は、世界中で最も頻繁に行われた画像検査の1つであるが、画像量の増加は放射線学の作業負荷と診断エラーのリスクを増加させる。
人工知能(AI)システムはCXRの解釈を約束しているが、ほとんどの場合、視覚的エビデンスがどのように放射線学的発見や診断予測に変換されるかを明確にすることなく、最終的な予測のみを生成する。
CXR解釈のための推論可能な視覚言語モデルであるCheXOneを提案する。
CheXOneは、診断予測と、視覚的エビデンス、放射線学的発見、およびこれらの予測を結びつける明確な臨床的根拠のある推論トレースを共同で生成する。
このモデルは、36のCXR解釈タスクにまたがる30の公開データセットから収集された1470万の命令と推論サンプルに基づいてトレーニングされている。
我々は,CheXOneを視覚的質問応答,レポート生成,視覚的根拠付け,推論評価のゼロショット設定で評価し,評価設定を17。
CheXOneは、既存の医療および一般ドメインの基礎モデルより優れ、独立した公開ベンチマークで強力なパフォーマンスを実現している。
臨床読者による研究によると、CheXOneによる報告は55%の症例において、居住者による報告と同等かそれ以上であり、臨床徴候を効果的に解決し、レポート作成とCXR解釈の効率を向上させる。
放射線学者によるさらなる分析により、発生した推論の痕跡は高い臨床的事実を示し、最終的な予測を因果的に支援し、パフォーマンス向上のもっともらしい説明を提供することが明らかとなった。
これらの結果から,AIを用いたCXR解釈におけるモデル性能,解釈可能性,臨床的有用性の向上が示唆された。
関連論文リスト
- A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - Reasoning Visual Language Model for Chest X-Ray Analysis [30.318629424154206]
胸部X線解釈にチェーン・オブ・シント(CoT)推論をもたらすフレームワークを提案する。
推論ファーストのトレーニングパラダイムにインスパイアされた私たちのアプローチは、専門家が結論を下すだけでなく、どのように判断するかを学ぶように設計されています。
我々は,胸部X線撮影における信頼に値する,説明可能なAIに向けたコミュニティの進展を支援するために,コードとモデルNV-Reason-CXR-3Bをリリースする。
論文 参考訳(メタデータ) (2025-10-28T00:48:00Z) - CXRAgent: Director-Orchestrated Multi-Stage Reasoning for Chest X-Ray Interpretation [62.0150409256153]
我々は、CXR解釈のためのディレクター調整型多段階エージェントであるCXRAgentを提案する。
エージェントは、Evidence-driven Validatorによって正規化され検証された出力を持つ一連のCXR分析ツールを戦略的にオーケストレーションする。
様々なCXR解釈タスクの実験は、CXRAgentが強いパフォーマンスを示し、視覚的証拠を提供し、異なる複雑さの臨床的タスクにうまく一般化していることを示している。
論文 参考訳(メタデータ) (2025-10-24T10:31:30Z) - A Foundation Model for Chest X-ray Interpretation with Grounded Reasoning via Online Reinforcement Learning [41.27625400846057]
DeepMedix-R1は、胸部X線(CXR)の解釈のための総合医療用FMである。
クエリ毎に、画像のローカルリージョンに関連付けられた回答と推論ステップの両方を生成する。
論文 参考訳(メタデータ) (2025-09-04T06:00:04Z) - X-Ray-CoT: Interpretable Chest X-ray Diagnosis with Vision-Language Models via Chain-of-Thought Reasoning [0.0]
胸部X線診断のための新しいフレームワークであるX線CoT(Chest X-ray Chain-of-Thought)を提案する。
X線-CoTは、まずマルチモーダル特徴と視覚概念を抽出することにより、ヒトの放射線学者の「チェーン・オブ・思想」をシミュレートする。
80.52%、F1スコア78.65%のバランスド精度で、競争力のある定量的パフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-08-17T18:00:41Z) - Interpreting Chest X-rays Like a Radiologist: A Benchmark with Clinical Reasoning [18.15610003617933]
胸部X線(CXR)解釈のための新しい多段階視覚質問応答(VQA)データセットであるCXRTrekを提案する。
このデータセットは、現実の臨床環境で放射線技師が使用する診断的推論プロセスを明示的にシミュレートするように設計されている。
本稿では,新たな視覚言語大モデル (VLLM) であるCXRTrekNetを提案する。
論文 参考訳(メタデータ) (2025-05-29T06:30:40Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - This Patient Looks Like That Patient: Prototypical Networks for
Interpretable Diagnosis Prediction from Clinical Text [56.32427751440426]
臨床実践においては、そのようなモデルは正確であるだけでなく、医師に解釈可能で有益な結果を与える必要がある。
本稿では,プロトタイプネットワークに基づく新しい手法であるProtoPatientを紹介する。
利用可能な2つの臨床データセット上でモデルを評価し、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-16T10:12:07Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。