論文の概要: End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning
- arxiv url: http://arxiv.org/abs/2508.15746v1
- Date: Thu, 21 Aug 2025 17:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.427185
- Title: End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning
- Title(参考訳): トレーサブル診断のためのエンド・ツー・エンドエージェントRAGシステムトレーニング
- Authors: Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie,
- Abstract要約: Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 52.12425911708585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate diagnosis with medical large language models is hindered by knowledge gaps and hallucinations. Retrieval and tool-augmented methods help, but their impact is limited by weak use of external knowledge and poor feedback-reasoning traceability. To address these challenges, We introduce Deep-DxSearch, an agentic RAG system trained end-to-end with reinforcement learning (RL) that enables steer tracebale retrieval-augmented reasoning for medical diagnosis. In Deep-DxSearch, we first construct a large-scale medical retrieval corpus comprising patient records and reliable medical knowledge sources to support retrieval-aware reasoning across diagnostic scenarios. More crutially, we frame the LLM as the core agent and the retrieval corpus as its environment, using tailored rewards on format, retrieval, reasoning structure, and diagnostic accuracy, thereby evolving the agentic RAG policy from large-scale data through RL. Experiments demonstrate that our end-to-end agentic RL training framework consistently outperforms prompt-engineering and training-free RAG approaches across multiple data centers. After training, Deep-DxSearch achieves substantial gains in diagnostic accuracy, surpassing strong diagnostic baselines such as GPT-4o, DeepSeek-R1, and other medical-specific frameworks for both common and rare disease diagnosis under in-distribution and out-of-distribution settings. Moreover, ablation studies on reward design and retrieval corpus components confirm their critical roles, underscoring the uniqueness and effectiveness of our approach compared with traditional implementations. Finally, case studies and interpretability analyses highlight improvements in Deep-DxSearch's diagnostic policy, providing deeper insight into its performance gains and supporting clinicians in delivering more reliable and precise preliminary diagnoses. See https://github.com/MAGIC-AI4Med/Deep-DxSearch.
- Abstract(参考訳): 医学的大言語モデルによる正確な診断は、知識ギャップと幻覚によって妨げられる。
検索とツール拡張の手法は役に立つが、その影響は外部知識の弱い使用と、フィードバックの少ないトレーサビリティによって制限される。
これらの課題に対処するために、我々は、強化学習(RL)を用いたエージェントRAGシステムのエンドツーエンドトレーニングであるDeep-DxSearchを紹介した。
Deep-DxSearchでは、まず患者記録と信頼できる医療知識ソースからなる大規模医療検索コーパスを構築し、診断シナリオ間の検索認識推論を支援する。
さらに, LLMをコアエージェントとして, 検索コーパスを環境として, 形式, 検索, 推論構造, 診断精度に合わせた報酬を用いて, エージェントRAGポリシーをRLを通じて大規模データから進化させる。
実験により、エンドツーエンドのエージェントRLトレーニングフレームワークは、複数のデータセンタにわたるプロンプトエンジニアリングとトレーニングフリーのRAGアプローチよりも一貫して優れています。
トレーニング後、Deep-DxSearchは診断精度を大幅に向上させ、GPT-4o、DeepSeek-R1などの診断基準や、分布内および分布外設定下での一般的および稀な疾患診断のための他の医学固有のフレームワークを超越した。
さらに、報酬設計と検索コーパスコンポーネントに関するアブレーション研究は、従来の実装と比較して、我々のアプローチの独特さと有効性を明確にし、それらの重要な役割を裏付けるものである。
最後に、ケーススタディと解釈可能性分析は、Deep-DxSearchの診断ポリシーの改善を強調し、パフォーマンス向上に関する深い洞察を提供し、臨床医がより信頼性が高く正確な事前診断を提供するのをサポートする。
https://github.com/MAGIC-AI4Med/Deep-DxSearchを参照。
関連論文リスト
- An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [58.78045864541539]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - LLM-Driven Medical Document Analysis: Enhancing Trustworthy Pathology and Differential Diagnosis [13.435898630240416]
低ランク適応を用いてLLaMA-v3を微調整する信頼性の高い医療文書分析プラットフォームを提案する。
本手法は差分診断のための最大のベンチマークデータセットであるDDXPlusを利用する。
開発したWebベースのプラットフォームでは、ユーザは独自の構造化されていない医療文書を提出し、正確な説明可能な診断結果を受け取ることができる。
論文 参考訳(メタデータ) (2025-06-24T15:12:42Z) - DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models [25.13622249539088]
diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。
診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。
我々の研究では、最も先進的な推論モデルであるo3、o1、DeepSeek-R1でさえ、それぞれ51.12%、31.09%、17.79%の精度しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2025-05-20T09:14:53Z) - MedRAG: Enhancing Retrieval-augmented Generation with Knowledge Graph-Elicited Reasoning for Healthcare Copilot [47.77948063906033]
Retrieval-augmented Generation (RAG)は、プライバシーに敏感な電子健康記録を検索するのに適した手法である。
本稿では,医療領域に対する知識グラフ(KG)により強化されたRAGモデルであるMedRAGを提案する。
MedRAGはより具体的な診断の洞察を提供し、誤診率の低減に最先端のモデルを上回っている。
論文 参考訳(メタデータ) (2025-02-06T12:27:35Z) - Step-by-Step Guidance to Differential Anemia Diagnosis with Real-World Data and Deep Reinforcement Learning [1.5272023683653024]
臨床診断ガイドラインは、診断に到達するための重要な質問を概説する。
本研究の目的は,電子カルテから学習し,正確な診断に最適な行動列を決定するモデルを開発することである。
論文 参考訳(メタデータ) (2024-12-03T08:45:50Z) - A Foundational Framework and Methodology for Personalized Early and
Timely Diagnosis [84.6348989654916]
本稿では,早期診断とタイムリー診断のための基礎的枠組みを提案する。
診断過程を概説する決定論的アプローチに基づいている。
機械学習と統計手法を統合し、最適なパーソナライズされた診断経路を推定する。
論文 参考訳(メタデータ) (2023-11-26T14:42:31Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z) - Deep Reinforcement Learning Framework for Thoracic Diseases
Classification via Prior Knowledge Guidance [49.87607548975686]
関連疾患に対するラベル付きデータの不足は、正確な診断にとって大きな課題となる。
本稿では,診断エージェントの学習を指導するための事前知識を導入する,新しい深層強化学習フレームワークを提案する。
提案手法の性能はNIHX-ray 14とCheXpertデータセットを用いて実証した。
論文 参考訳(メタデータ) (2023-06-02T01:46:31Z) - Extracting Diagnosis Pathways from Electronic Health Records Using Deep
Reinforcement Learning [2.0191844627740254]
我々は,電子カルテから正しい診断を得るために,行動の最適なシーケンスを学習することを目指している。
この課題に様々な深層強化学習アルゴリズムを適用し、貧血の鑑別診断のために、合成だが現実的なデータセットを実験する。
論文 参考訳(メタデータ) (2023-05-10T16:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。