論文の概要: Reasoning Visual Language Model for Chest X-Ray Analysis
- arxiv url: http://arxiv.org/abs/2510.23968v1
- Date: Tue, 28 Oct 2025 00:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.69767
- Title: Reasoning Visual Language Model for Chest X-Ray Analysis
- Title(参考訳): 胸部X線解析のための視覚言語モデルの提案
- Authors: Andriy Myronenko, Dong Yang, Baris Turkbey, Mariam Aboian, Sena Azamat, Esra Akcicek, Hongxu Yin, Pavlo Molchanov, Marc Edgar, Yufan He, Pengfei Guo, Yucheng Tang, Daguang Xu,
- Abstract要約: 胸部X線解釈にチェーン・オブ・シント(CoT)推論をもたらすフレームワークを提案する。
推論ファーストのトレーニングパラダイムにインスパイアされた私たちのアプローチは、専門家が結論を下すだけでなく、どのように判断するかを学ぶように設計されています。
我々は,胸部X線撮影における信頼に値する,説明可能なAIに向けたコミュニティの進展を支援するために,コードとモデルNV-Reason-CXR-3Bをリリースする。
- 参考スコア(独自算出の注目度): 30.318629424154206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have shown strong promise for medical image analysis, but most remain opaque, offering predictions without the transparent, stepwise reasoning clinicians rely on. We present a framework that brings chain-of-thought (CoT) reasoning to chest X-ray interpretation. Inspired by reasoning-first training paradigms, our approach is designed to learn how experts reason, not just what they conclude, by aligning intermediate steps with observable image evidence and radiology workflow. Beyond accuracy, the explicit reasoning traces support clinical auditability: they reveal why a conclusion was reached, which alternatives were considered, and where uncertainty remains, enabling quality assurance, error analysis, and safer human-AI collaboration. Our model couples high-fidelity visual encoding with a two-stage training recipe: a reasoning-style supervised fine-tuning (SFT) followed by reinforcement learning (RL) that uses verifiable rewards over a list of X-ray abnormalities. The model outputs reasoning that mirrors radiologists systematic thought process, uncertainty, and differential diagnosis. In out-of-distribution evaluation, the approach achieves competitive multi-label classification while improving interpretability. In a reader study with expert radiologists, full reasoning traces increased confidence, supported error auditing, and reduced time to finalize reports. We release code and the model NV-Reason-CXR-3B to support community progress toward trustworthy, explainable AI in chest radiography and other medical imaging tasks where reasoning quality is as critical as prediction quality.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)は、医用画像解析に強く期待されているが、ほとんどは不透明であり、透明で段階的に臨床医が頼りにしない予測を提供する。
胸部X線解釈にチェーン・オブ・シント(CoT)推論をもたらすフレームワークを提案する。
推論ファーストのトレーニングパラダイムにインスパイアされた私たちのアプローチは、専門家が結論だけでなく、観察可能な画像証拠や放射線学のワークフローと中間ステップを整合させることで、専門家がどのように判断するかを学ぶように設計されています。
結論が得られた理由、どの選択肢が検討されたか、不確実性が残っているかを明らかにし、品質保証、エラー分析、より安全な人間とAIのコラボレーションを可能にします。
モデルでは,2段階のトレーニングレシピと高忠実度視覚符号化を組み合わせ,X線異常点のリストに対する検証可能な報酬を用いた強化学習(RL)が続く。
このモデルは、放射線技師の体系的な思考過程、不確実性、および鑑別診断を反映する推論を出力する。
アウト・オブ・ディストリビューション評価では、解釈性を改善しながら競合するマルチラベル分類を実現する。
専門家の放射線学者との読者スタディでは、完全な推論トレースは信頼性を高め、エラー監査をサポートし、レポートを最終化するための時間を短縮する。
我々はコードとモデルNV-Reason-CXR-3Bをリリースし、診断品質が予測品質と同じくらい重要となる胸部X線撮影などの医療画像タスクにおいて、コミュニティの進歩を支援する。
関連論文リスト
- RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Brittleness and Promise: Knowledge Graph Based Reward Modeling for Diagnostic Reasoning [8.35131510062609]
大型言語モデル (LLM) は診断的推論を約束するが、しばしば信頼できる知識に基づく推論を欠いている。
本研究は,候補経路が患者入力の正しい診断につながるかどうかを判断するために学習するKG推論経路の報奨モデルとしてLLMを取り扱う。
臨床KGに対する「リワードモデル」推論の体系的評価を初めて行った。
論文 参考訳(メタデータ) (2025-09-22T18:39:09Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - X-Ray-CoT: Interpretable Chest X-ray Diagnosis with Vision-Language Models via Chain-of-Thought Reasoning [0.0]
胸部X線診断のための新しいフレームワークであるX線CoT(Chest X-ray Chain-of-Thought)を提案する。
X線-CoTは、まずマルチモーダル特徴と視覚概念を抽出することにより、ヒトの放射線学者の「チェーン・オブ・思想」をシミュレートする。
80.52%、F1スコア78.65%のバランスド精度で、競争力のある定量的パフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-08-17T18:00:41Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
推論は、医用画像解析の進歩における重要なフロンティアである。
我々は、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。
MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上している。
論文 参考訳(メタデータ) (2025-02-26T23:57:34Z) - VICCA: Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback [1.5839621757142595]
本稿では,AI生成医療報告のセマンティックアライメントと位置決め精度の向上を目的とした新しいフレームワークを提案する。
元の画像と生成された画像の特徴を比較することにより、デュアルスコーリングシステムを導入する。
このアプローチは既存の手法よりも優れており、病理の局在化やテキスト・ツー・イメージのアライメントにおいて最先端の結果が得られている。
論文 参考訳(メタデータ) (2025-01-29T16:02:16Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Interpretable Vertebral Fracture Diagnosis [69.68641439851777]
ブラックボックスニューラルネットワークモデルは、骨折診断のための臨床的に関連する特徴を学習する。
この研究は、CT画像における脊椎骨折の診断にネットワークが使用する概念を特定する。
論文 参考訳(メタデータ) (2022-03-30T13:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。