論文の概要: DeepER-Med: Advancing Deep Evidence-Based Research in Medicine Through Agentic AI
- arxiv url: http://arxiv.org/abs/2604.15456v1
- Date: Thu, 16 Apr 2026 18:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.618844
- Title: DeepER-Med: Advancing Deep Evidence-Based Research in Medicine Through Agentic AI
- Title(参考訳): DeepER-Med:エージェントAIによる医学の深いエビデンスベースの研究を促進する
- Authors: Zhizheng Wang, Chih-Hsuan Wei, Joey Chan, Robert Leaman, Chi-Ping Day, Chuan Wu, Mark A Knepper, Antolin Serrano Farias, Jordina Rincon-Torroella, Hasan Slika, Betty Tyler, Ryan Huu-Tuan Nguyen, Asmita Indurkar, Mélanie Hébert, Shubo Tian, Lauren He, Noor Naffakh, Aseem Aseem, Nicholas Wan, Emily Y Chew, Tiarnan D L Keenan, Zhiyong Lu,
- Abstract要約: 我々はエージェントAIシステムを用いた深層医学研究のためのフレームワークであるDeepER-Medを紹介する。
DeepER-Medは、エビデンスベースの生成の明示的で検査可能なワークフローとして、深層医学研究を基盤としている。
複数の基準で広く使われているプロダクショングレードプラットフォームより一貫して優れています。
ヒト臨床評価では、DeepER-Medの結論は7例の臨床勧告と一致している。
- 参考スコア(独自算出の注目度): 10.310030966524161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trustworthiness and transparency are essential for the clinical adoption of artificial intelligence (AI) in healthcare and biomedical research. Recent deep research systems aim to accelerate evidence-grounded scientific discovery by integrating AI agents with multi-hop information retrieval, reasoning, and synthesis. However, most existing systems lack explicit and inspectable criteria for evidence appraisal, creating a risk of compounding errors and making it difficult for researchers and clinicians to assess the reliability of their outputs. In parallel, current benchmarking approaches rarely evaluate performance on complex, real-world medical questions. Here, we introduce DeepER-Med, a Deep Evidence-based Research framework for Medicine with an agentic AI system. DeepER-Med frames deep medical research as an explicit and inspectable workflow of evidence-based generation, consisting of three modules: research planning, agentic collaboration, and evidence synthesis. To support realistic evaluation, we also present DeepER-MedQA, an evidence-grounded dataset comprising 100 expert-level research questions derived from authentic medical research scenarios and curated by a multidisciplinary panel of 11 biomedical experts. Expert manual evaluation demonstrates that DeepER-Med consistently outperforms widely used production-grade platforms across multiple criteria, including the generation of novel scientific insights. We further demonstrate the practical utility of DeepER-Med through eight real-world clinical cases. Human clinician assessment indicates that DeepER-Med's conclusions align with clinical recommendations in seven cases, highlighting its potential for medical research and decision support.
- Abstract(参考訳): 信頼と透明性は、医療と生物医学研究における人工知能(AI)の臨床的採用に不可欠である。
近年の深層研究システムは、AIエージェントとマルチホップ情報検索、推論、合成を統合することにより、エビデンスに基づく科学的発見を加速することを目的としている。
しかし、既存のシステムの多くは、明確な検査可能な評価基準を欠いているため、エラーを複雑にし、研究者や臨床医がアウトプットの信頼性を評価するのを困難にしている。
並行して、現在のベンチマークアプローチでは、複雑で現実的な医学的問題のパフォーマンスを評価することはめったにない。
本稿では、エージェントAIシステムを備えたディープエビデンスベースの医学研究フレームワークであるDeepER-Medを紹介する。
DeepER-Medは、ディープ・メディカル・リサーチをエビデンス・ベース・ジェネレーションの明示的で検査可能なワークフローとして捉えており、研究計画、エージェント・コラボレーション、エビデンス・シンセサイザーという3つのモジュールから構成されている。
また,現実的な評価を支援するために,11名のバイオメディカル専門家からなる多学際パネルで実施した,真正な医学研究シナリオから得られた100名の専門家レベル研究質問からなるエビデンスグラウンドデータセットDeepER-MedQAも提示した。
専門家による手作業による評価では、DeepER-Medは、新しい科学的洞察の生成を含む、さまざまな基準で広く使用されているプロダクショングレードプラットフォームを一貫して上回っている。
さらに,DepER-Medの実用性について,実例8例で検証した。
ヒト臨床評価では、DeepER-Medの結論は7例の臨床勧告と一致しており、医学研究と意思決定支援の可能性を強調している。
関連論文リスト
- Towards a Medical AI Scientist [73.6056699962416]
私たちは、臨床自律研究に特化した最初の自律的な研究フレームワークである、メディカルAIサイエンティストを紹介します。
このフレームワークは3つの研究モード、すなわち論文ベースの再現、文学にインスパイアされた革新、タスク駆動探索で動作する。
本システムでは,提案手法と実装の密接な整合性を実現するとともに,実行可能実験において極めて高い成功率を示す。
論文 参考訳(メタデータ) (2026-03-30T15:37:25Z) - DeepEvidence: Empowering Biomedical Discovery with Deep Knowledge Graph Research [33.51246292480848]
我々は、様々なバイオメディカル知識グラフ(KG)にまたがってDeep Researchを実行するために設計されたAIエージェントフレームワークであるDeepEvidenceを紹介する。
主にインターネットスケールのテキストに依存している一般的なDeep Researchシステムとは異なり、DeepEvidenceには専門的な知識グラフツールと協調的な探索戦略が組み込まれている。
ディープエビデンス(DeepEvidence)は、生物医学的な発見ライフサイクルの4つの重要な段階において、体系的な探索とエビデンス合成において大きな進歩を示す。
論文 参考訳(メタデータ) (2025-12-23T14:34:38Z) - Dr.Mi-Bench: A Modular-integrated Benchmark for Scientific Deep Research Agent [52.876617746453995]
ミ・ベンチ博士(Dr.Mi-Bench)は、科学深層研究(DR)エージェントのためのモジュール統合ベンチマークである。
Dr.Mi-Evalはモジュラー統合評価パラダイムである。
論文 参考訳(メタデータ) (2025-11-30T17:16:47Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - MedResearcher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework [24.399778346443757]
汎用的なディープリサーチエージェントは、主要なプロプライエタリなシステムによって証明されているように、医療領域の課題に苦しむ。
2つのコアイノベーションを通じてこれらの課題に対処する医療深層研究エージェントを提示する。
本手法は12の専門分野にまたがる2100以上の多様な軌道を生成し,それぞれが平均4.2のツールインタラクションを発生させる。
論文 参考訳(メタデータ) (2025-08-20T17:51:20Z) - MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z) - MedKP: Medical Dialogue with Knowledge Enhancement and Clinical Pathway
Encoding [48.348511646407026]
本稿では,知識向上と臨床パスウェイ符号化フレームワークを用いた医療対話について紹介する。
このフレームワークは、医療知識グラフを介して外部知識増強モジュールと、医療機関および医師の行動を介して、内部臨床経路をコードする。
論文 参考訳(メタデータ) (2024-03-11T10:57:45Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。