論文の概要: CXReasonAgent: Evidence-Grounded Diagnostic Reasoning Agent for Chest X-rays
- arxiv url: http://arxiv.org/abs/2602.23276v1
- Date: Thu, 26 Feb 2026 17:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.8204
- Title: CXReasonAgent: Evidence-Grounded Diagnostic Reasoning Agent for Chest X-rays
- Title(参考訳): CXReasonAgent:胸部X線診断薬
- Authors: Hyungyung Lee, Hangyul Yoon, Edward Choi,
- Abstract要約: 胸部X線は胸部診断において中心的な役割を担い、その解釈は本質的に多段階の根拠に基づく推論を必要とする。
大規模視覚言語モデル(LVLM)は、診断的証拠に忠実に基づかない、もっともらしい応答を生成する。
本稿では,CXReasonAgentについて紹介する。CXReasonAgentは,大規模言語モデルと臨床診断ツールを統合した診断剤である。
- 参考スコア(独自算出の注目度): 16.09644321057171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chest X-ray plays a central role in thoracic diagnosis, and its interpretation inherently requires multi-step, evidence-grounded reasoning. However, large vision-language models (LVLMs) often generate plausible responses that are not faithfully grounded in diagnostic evidence and provide limited visual evidence for verification, while also requiring costly retraining to support new diagnostic tasks, limiting their reliability and adaptability in clinical settings. To address these limitations, we present CXReasonAgent, a diagnostic agent that integrates a large language model (LLM) with clinically grounded diagnostic tools to perform evidence-grounded diagnostic reasoning using image-derived diagnostic and visual evidence. To evaluate these capabilities, we introduce CXReasonDial, a multi-turn dialogue benchmark with 1,946 dialogues across 12 diagnostic tasks, and show that CXReasonAgent produces faithfully grounded responses, enabling more reliable and verifiable diagnostic reasoning than LVLMs. These findings highlight the importance of integrating clinically grounded diagnostic tools, particularly in safety-critical clinical settings.
- Abstract(参考訳): 胸部X線は胸部診断において中心的な役割を担い、その解釈は本質的に多段階の根拠に基づく推論を必要とする。
しかし、大きな視覚言語モデル(LVLM)は、診断証拠に忠実に根ざせず、検証のための限られた視覚的証拠を提供するとともに、新しい診断タスクをサポートするためにコストのかかる再訓練を必要とし、臨床現場での信頼性と適応性を制限する。
CXReasonAgentは,大言語モデル(LLM)と臨床基盤診断ツールを統合し,画像由来の診断と視覚的証拠を用いたエビデンス基底診断を行う診断エージェントである。
CXReasonDialは12の診断タスクに1,946のダイアログを持つマルチターン・ダイアログ・ベンチマークであり、CXReasonAgentが忠実に基底化された応答を生成し、LVLMよりも信頼性が高く検証可能な診断推論を可能にすることを示す。
これらの知見は, 臨床診断ツールの統合の重要性, 特に安全クリティカルな臨床現場での重要性を浮き彫りにした。
関連論文リスト
- AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - CXRAgent: Director-Orchestrated Multi-Stage Reasoning for Chest X-Ray Interpretation [62.0150409256153]
我々は、CXR解釈のためのディレクター調整型多段階エージェントであるCXRAgentを提案する。
エージェントは、Evidence-driven Validatorによって正規化され検証された出力を持つ一連のCXR分析ツールを戦略的にオーケストレーションする。
様々なCXR解釈タスクの実験は、CXRAgentが強いパフォーマンスを示し、視覚的証拠を提供し、異なる複雑さの臨床的タスクにうまく一般化していることを示している。
論文 参考訳(メタデータ) (2025-10-24T10:31:30Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models [25.13622249539088]
diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。
診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。
我々の研究では、最も先進的な推論モデルであるo3、o1、DeepSeek-R1でさえ、それぞれ51.12%、31.09%、17.79%の精度しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2025-05-20T09:14:53Z) - MSDiagnosis: A Benchmark for Evaluating Large Language Models in Multi-Step Clinical Diagnosis [8.641421154025211]
われわれはMSDiagnosisと呼ばれる中国の臨床診断基準を提案する。
このベンチマークは12の部門から2,225のケースで構成され、一次診断、鑑別診断、最終診断などのタスクをカバーする。
論文 参考訳(メタデータ) (2024-08-19T14:31:57Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。