論文の概要: An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
- arxiv url: http://arxiv.org/abs/2506.20430v1
- Date: Wed, 25 Jun 2025 13:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.759274
- Title: An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
- Title(参考訳): トレーサブル推論を用いた希少疾患診断のためのエージェントシステム
- Authors: Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie,
- Abstract要約: 大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
- 参考スコア(独自算出の注目度): 58.78045864541539
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Rare diseases collectively affect over 300 million individuals worldwide, yet timely and accurate diagnosis remains a pervasive challenge. This is largely due to their clinical heterogeneity, low individual prevalence, and the limited familiarity most clinicians have with rare conditions. Here, we introduce DeepRare, the first rare disease diagnosis agentic system powered by a large language model (LLM), capable of processing heterogeneous clinical inputs. The system generates ranked diagnostic hypotheses for rare diseases, each accompanied by a transparent chain of reasoning that links intermediate analytic steps to verifiable medical evidence. DeepRare comprises three key components: a central host with a long-term memory module; specialized agent servers responsible for domain-specific analytical tasks integrating over 40 specialized tools and web-scale, up-to-date medical knowledge sources, ensuring access to the most current clinical information. This modular and scalable design enables complex diagnostic reasoning while maintaining traceability and adaptability. We evaluate DeepRare on eight datasets. The system demonstrates exceptional diagnostic performance among 2,919 diseases, achieving 100% accuracy for 1013 diseases. In HPO-based evaluations, DeepRare significantly outperforms other 15 methods, like traditional bioinformatics diagnostic tools, LLMs, and other agentic systems, achieving an average Recall@1 score of 57.18% and surpassing the second-best method (Reasoning LLM) by a substantial margin of 23.79 percentage points. For multi-modal input scenarios, DeepRare achieves 70.60% at Recall@1 compared to Exomiser's 53.20% in 109 cases. Manual verification of reasoning chains by clinical experts achieves 95.40% agreements. Furthermore, the DeepRare system has been implemented as a user-friendly web application http://raredx.cn/doctor.
- Abstract(参考訳): 希少な病気は全世界で3億人以上に影響を与えるが、タイムリーかつ正確な診断は広範にわたる課題である。
これは主に臨床不均一性、個人の頻度の低いこと、多くの臨床医が稀な疾患に慣れていることによるものである。
本稿では,多言語モデル(LLM)を用いた異種臨床入力を処理可能な最初の稀な疾患診断エージェントシステムであるDeepRareを紹介する。
このシステムは、希少疾患の診断仮説を分類し、それぞれに、中間解析段階と検証可能な医学的証拠を関連付ける透明な推論の連鎖を伴って生成する。
DeepRareは3つの重要なコンポーネントで構成されている: 長期記憶モジュールを持つ中央ホスト、40以上の専門的なツールとWebスケールの最新の医療知識ソースを統合し、最新の臨床情報へのアクセスを保証する、ドメイン固有の分析タスクを担当する専門エージェントサーバ。
このモジュール化されたスケーラブルな設計は、トレーサビリティと適応性を維持しながら、複雑な診断推論を可能にする。
DeepRareを8つのデータセットで評価する。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
HPOに基づく評価では、DeepRareは従来のバイオインフォマティクス診断ツール、LSM、その他のエージェントシステムなど15の手法を著しく上回り、平均Recall@1スコアは57.18%、第2ベット法(Reasoning LLM)を23.79ポイント上回っている。
マルチモーダルな入力シナリオでは、DeepRareはRecall@1で70.60%を達成した。
臨床専門家による推論チェーンのマニュアル検証は95.40%の合意を達成している。
さらに、DeepRare システムはユーザフレンドリーな Web アプリケーション http://raredx.cn/doctor として実装されている。
関連論文リスト
- Clinical Semantic Intelligence (CSI): Emulating the Cognitive Framework of the Expert Clinician for Comprehensive Oral Disease Diagnosis [0.0]
我々は118の異なる口腔疾患を診断する新しい人工知能フレームワークを開発する。
私たちのコア仮説は、専門家の推論をエミュレートする単純なパターンマッチングを超えて、臨床的に有用な診断支援を構築するために重要である、というものです。
論文 参考訳(メタデータ) (2025-07-20T22:30:01Z) - Sequential Diagnosis with Language Models [21.22416732642907]
本稿では,304症例を段階的に診断するシークエンシャル診断ベンチマークを紹介する。
成績は、診断精度だけでなく、医師の診察や検査の費用によって評価される。
また,医師のパネルを模擬したモデル診断オーケストレータであるMAI診断オーケストレータ(MAI-DxO)についても紹介する。
論文 参考訳(メタデータ) (2025-06-27T17:27:26Z) - DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models [25.13622249539088]
diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。
診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。
我々の研究では、最も先進的な推論モデルであるo3、o1、DeepSeek-R1でさえ、それぞれ51.12%、31.09%、17.79%の精度しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2025-05-20T09:14:53Z) - MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - RiskAgent: Autonomous Medical AI Copilot for Generalist Risk Prediction [27.520717720270415]
本稿では,幅広い医療リスク予測を行うためのリスクエージェントシステムを提案する。
RiskAgentは、心臓血管疾患や癌など、様々な複雑な疾患の387以上のリスクシナリオをカバーしている。
我々は、リスク予測に特化した最初のベンチマークMedRiskを構築した。その中には、154の疾患、86の症状、50の専門性、24の臓器システムを含む12,352の質問が含まれている。
論文 参考訳(メタデータ) (2025-03-05T18:46:51Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - MADE-for-ASD: A Multi-Atlas Deep Ensemble Network for Diagnosing Autism Spectrum Disorder [4.7377709803078325]
本稿では,従来の診断手法と潜在的な自動化ソリューションのギャップを埋める。
我々は,脳の機能的磁気共鳴画像(fMRI)データの複数のアトラスを統合するマルチアトラスディープアンサンブルネットワーク,MADE-for-ASDを提案する。
提案手法は,ASD診断性能を向上させるための予測ワークフローに,人口統計情報を統合する。
論文 参考訳(メタデータ) (2024-07-09T17:49:23Z) - Large-scale Long-tailed Disease Diagnosis on Radiology Images [51.453990034460304]
RadDiagは、様々なモダリティと解剖学にわたる2Dおよび3D入力をサポートする基礎モデルである。
私たちのデータセットであるRP3D-DiagDSは、5,568の障害をカバーする195,010のスキャンで40,936の症例を含む。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。