論文の概要: Can LLM Agents Generate Real-World Evidence? Evaluating Observational Studies in Medical Databases
- arxiv url: http://arxiv.org/abs/2603.22767v1
- Date: Tue, 24 Mar 2026 03:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.290484
- Title: Can LLM Agents Generate Real-World Evidence? Evaluating Observational Studies in Medical Databases
- Title(参考訳): LLMエージェントは実世界のエビデンスを生成できるか? : 医学データベースにおける観察研究の評価
- Authors: Dubai Li, Yuxiang He, Yan Hu, Yu Tian, Jingsong Li,
- Abstract要約: 我々は、MIMIC-IVをベースとしたRWE-benchについて、ピアレビューによる観察研究から紹介する。
各タスクは対応する研究プロトコルを基準として提供し、エージェントは実際のデータベースで実験を行う必要がある。
162タスク全体では、タスク成功率は低く、最高のエージェントが39.9%、最高のオープンソースモデルが30.4%に達する。
- 参考スコア(独自算出の注目度): 17.35673829214932
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Observational studies can yield clinically actionable evidence at scale, but executing them on real-world databases is open-ended and requires coherent decisions across cohort construction, analysis, and reporting. Prior evaluations of LLM agents emphasize isolated steps or single answers, missing the integrity and internal structure of the resulting evidence bundle. To address this gap, we introduce RWE-bench, a benchmark grounded in MIMIC-IV and derived from peer-reviewed observational studies. Each task provides the corresponding study protocol as the reference standard, requiring agents to execute experiments in a real database and iteratively generate tree-structured evidence bundles. We evaluate six LLMs (three open-source, three closed-source) under three agent scaffolds using both question-level correctness and end-to-end task metrics. Across 162 tasks, task success is low: the best agent reaches 39.9%, and the best open-source model reaches 30.4%. Agent scaffolds also matter substantially, causing over 30% variation in performance metrics. Furthermore, we implement an automated cohort evaluation method to rapidly localize errors and identify agent failure modes. Overall, the results highlight persistent limitations in agents' ability to produce end-to-end evidence bundles, and efficient validation remains an important direction for future work. Code and data are available at https://github.com/somewordstoolate/RWE-bench.
- Abstract(参考訳): 観察的研究は、臨床的に実行可能な証拠を大規模に得ることができるが、現実のデータベース上でそれらを実行するには、オープンエンドであり、コホートの構築、分析、報告を横断するコヒーレントな決定が必要である。
LLMエージェントの事前評価では、分離されたステップや単一回答を強調し、結果として得られるエビデンスバンドルの完全性や内部構造を欠いている。
このギャップに対処するために、MIMIC-IVに基礎を置くベンチマークRWE-benchを導入し、ピアレビューによる観察研究から導いた。
各タスクは、対応する研究プロトコルを基準として提供し、エージェントは実際のデータベースで実験を実行し、反復的に木構造されたエビデンスバンドルを生成する必要がある。
問合せレベルの正しさとエンドツーエンドのタスクメトリクスを用いて, エージェントスキャフォールドの6つのLCM(オープンソース3つ, クローズドソース3つ)を評価した。
162タスク全体では、タスク成功率は低く、最高のエージェントが39.9%、最高のオープンソースモデルが30.4%に達する。
エージェントの足場も大幅に重要で、パフォーマンス指標の30%以上が変更されている。
さらに,エラーを迅速にローカライズし,エージェント故障モードを識別するコホート自動評価手法を実装した。
全体としては、エージェントがエンドツーエンドのエビデンスバンドルを生成する能力の持続的な制限を強調しており、効率的な検証は将来の作業にとって重要な方向である。
コードとデータはhttps://github.com/somewordstoolate/RWE-bench.comで公開されている。
関連論文リスト
- FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights [63.32178443510396]
FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) は、確立された発見の再検討を通じてエージェントを評価するベンチマークである。
最強のエージェントでさえ、限られた再発見成功(50 F1)を達成し、実行中に高いばらつきを示し、実験的な設計、実行、エビデンスに基づく推論において繰り返し失敗モードを表示する。
論文 参考訳(メタデータ) (2026-02-02T23:21:13Z) - Large Language Model-Based Agents for Automated Research Reproducibility: An Exploratory Study in Alzheimer's Disease [1.9938547353667109]
我々は、National Alzheimer's Coordinating Centerの“Quick Access”データセットを使用しました。
NACCデータを用いて,高度に引用された論文を同定した。
コードの記述と実行を担当するLLMベースの自律エージェントのシミュレーション研究チームを作成しました。
論文 参考訳(メタデータ) (2025-05-29T01:31:55Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - LLM Agent Swarm for Hypothesis-Driven Drug Discovery [2.7036595757881323]
ファーマシュワーム(PharmaSwarm)は、新規な薬物標的および鉛化合物の仮説を提唱し、検証し、洗練するために、特殊な「エージェント」を編成する統合マルチエージェントフレームワークである。
PharmaSwarmはAIの副操縦士として機能することで、翻訳研究を加速し、従来のパイプラインよりも効率的に高信頼の仮説を提供することができる。
論文 参考訳(メタデータ) (2025-04-24T22:27:50Z) - ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery [23.773528748933934]
我々は、データ駆動科学発見のための言語エージェントを評価するための新しいベンチマークであるScienceAgentBenchを紹介する。
44の査読論文から4つの分野の102の課題を抽出し,9つの課題の専門家による検証を行った。
ScienceAgentBenchを使って、オープンウェイトでプロプライエタリなLLMを5つ評価し、それぞれにダイレクトプロンプト、OpenHands CodeAct、セルフAIの3つのフレームワークを持つ。
論文 参考訳(メタデータ) (2024-10-07T14:33:50Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。