論文の概要: An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
- arxiv url: http://arxiv.org/abs/2506.20430v1
- Date: Wed, 25 Jun 2025 13:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.759274
- Title: An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
- Title(参考訳): トレーサブル推論を用いた希少疾患診断のためのエージェントシステム
- Authors: Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie,
- Abstract要約: 大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
- 参考スコア(独自算出の注目度): 58.78045864541539
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Rare diseases collectively affect over 300 million individuals worldwide, yet timely and accurate diagnosis remains a pervasive challenge. This is largely due to their clinical heterogeneity, low individual prevalence, and the limited familiarity most clinicians have with rare conditions. Here, we introduce DeepRare, the first rare disease diagnosis agentic system powered by a large language model (LLM), capable of processing heterogeneous clinical inputs. The system generates ranked diagnostic hypotheses for rare diseases, each accompanied by a transparent chain of reasoning that links intermediate analytic steps to verifiable medical evidence. DeepRare comprises three key components: a central host with a long-term memory module; specialized agent servers responsible for domain-specific analytical tasks integrating over 40 specialized tools and web-scale, up-to-date medical knowledge sources, ensuring access to the most current clinical information. This modular and scalable design enables complex diagnostic reasoning while maintaining traceability and adaptability. We evaluate DeepRare on eight datasets. The system demonstrates exceptional diagnostic performance among 2,919 diseases, achieving 100% accuracy for 1013 diseases. In HPO-based evaluations, DeepRare significantly outperforms other 15 methods, like traditional bioinformatics diagnostic tools, LLMs, and other agentic systems, achieving an average Recall@1 score of 57.18% and surpassing the second-best method (Reasoning LLM) by a substantial margin of 23.79 percentage points. For multi-modal input scenarios, DeepRare achieves 70.60% at Recall@1 compared to Exomiser's 53.20% in 109 cases. Manual verification of reasoning chains by clinical experts achieves 95.40% agreements. Furthermore, the DeepRare system has been implemented as a user-friendly web application http://raredx.cn/doctor.
- Abstract(参考訳): 希少な病気は全世界で3億人以上に影響を与えるが、タイムリーかつ正確な診断は広範にわたる課題である。
これは主に臨床不均一性、個人の頻度の低いこと、多くの臨床医が稀な疾患に慣れていることによるものである。
本稿では,多言語モデル(LLM)を用いた異種臨床入力を処理可能な最初の稀な疾患診断エージェントシステムであるDeepRareを紹介する。
このシステムは、希少疾患の診断仮説を分類し、それぞれに、中間解析段階と検証可能な医学的証拠を関連付ける透明な推論の連鎖を伴って生成する。
DeepRareは3つの重要なコンポーネントで構成されている: 長期記憶モジュールを持つ中央ホスト、40以上の専門的なツールとWebスケールの最新の医療知識ソースを統合し、最新の臨床情報へのアクセスを保証する、ドメイン固有の分析タスクを担当する専門エージェントサーバ。
このモジュール化されたスケーラブルな設計は、トレーサビリティと適応性を維持しながら、複雑な診断推論を可能にする。
DeepRareを8つのデータセットで評価する。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
HPOに基づく評価では、DeepRareは従来のバイオインフォマティクス診断ツール、LSM、その他のエージェントシステムなど15の手法を著しく上回り、平均Recall@1スコアは57.18%、第2ベット法(Reasoning LLM)を23.79ポイント上回っている。
マルチモーダルな入力シナリオでは、DeepRareはRecall@1で70.60%を達成した。
臨床専門家による推論チェーンのマニュアル検証は95.40%の合意を達成している。
さらに、DeepRare システムはユーザフレンドリーな Web アプリケーション http://raredx.cn/doctor として実装されている。
関連論文リスト
- DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models [25.13622249539088]
diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。
診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。
我々の研究では、最も先進的な推論モデルであるo3、o1、DeepSeek-R1でさえ、それぞれ51.12%、31.09%、17.79%の精度しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2025-05-20T09:14:53Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - MADE-for-ASD: A Multi-Atlas Deep Ensemble Network for Diagnosing Autism Spectrum Disorder [4.7377709803078325]
本稿では,従来の診断手法と潜在的な自動化ソリューションのギャップを埋める。
我々は,脳の機能的磁気共鳴画像(fMRI)データの複数のアトラスを統合するマルチアトラスディープアンサンブルネットワーク,MADE-for-ASDを提案する。
提案手法は,ASD診断性能を向上させるための予測ワークフローに,人口統計情報を統合する。
論文 参考訳(メタデータ) (2024-07-09T17:49:23Z) - Large-scale Long-tailed Disease Diagnosis on Radiology Images [51.453990034460304]
RadDiagは、様々なモダリティと解剖学にわたる2Dおよび3D入力をサポートする基礎モデルである。
私たちのデータセットであるRP3D-DiagDSは、5,568の障害をカバーする195,010のスキャンで40,936の症例を含む。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。