論文の概要: MedBrowseComp: Benchmarking Medical Deep Research and Computer Use
- arxiv url: http://arxiv.org/abs/2505.14963v1
- Date: Tue, 20 May 2025 22:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.782938
- Title: MedBrowseComp: Benchmarking Medical Deep Research and Computer Use
- Title(参考訳): MedBrowseComp: 医療深層研究とコンピュータ利用のベンチマーク
- Authors: Shan Chen, Pedro Moreira, Yuxin Xiao, Sam Schmidgall, Jeremy Warner, Hugo Aerts, Thomas Hartvigsen, Jack Gallifant, Danielle S. Bitterman,
- Abstract要約: MedBrowseCompは、エージェントが医療事実を検索し、合成する能力を体系的にテストするベンチマークである。
臨床シナリオを反映した1,000以上の人為的な質問が含まれている。
MedBrowseCompをフロンティアエージェントシステムに適用すると、パフォーマンスの欠点が10%も低くなる。
- 参考スコア(独自算出の注目度): 10.565661515629412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly envisioned as decision-support tools in clinical practice, yet safe clinical reasoning demands integrating heterogeneous knowledge bases -- trials, primary studies, regulatory documents, and cost data -- under strict accuracy constraints. Existing evaluations often rely on synthetic prompts, reduce the task to single-hop factoid queries, or conflate reasoning with open-ended generation, leaving their real-world utility unclear. To close this gap, we present MedBrowseComp, the first benchmark that systematically tests an agent's ability to reliably retrieve and synthesize multi-hop medical facts from live, domain-specific knowledge bases. MedBrowseComp contains more than 1,000 human-curated questions that mirror clinical scenarios where practitioners must reconcile fragmented or conflicting information to reach an up-to-date conclusion. Applying MedBrowseComp to frontier agentic systems reveals performance shortfalls as low as ten percent, exposing a critical gap between current LLM capabilities and the rigor demanded in clinical settings. MedBrowseComp therefore offers a clear testbed for reliable medical information seeking and sets concrete goals for future model and toolchain upgrades. You can visit our project page at: https://moreirap12.github.io/mbc-browse-app/
- Abstract(参考訳): 大規模言語モデル(LLM)は、厳密な厳密な厳密な厳密な制約の下で、不均一な知識ベース(治験、一次研究、規制文書、費用データ)を統合する安全な臨床理由付けの要求に対して、臨床実践における意思決定支援ツールとしてますます考えられている。
既存の評価は、しばしば合成プロンプトに依存し、タスクを単一ホップのファクトイドクエリに減らしたり、オープンな生成で推論を説明したりする。
このギャップを埋めるために、我々はMedBrowseCompを提示する。MedBrowseCompは、エージェントが、生きたドメイン固有の知識ベースから、マルチホップの医療事実を確実に検索し、合成する能力を体系的にテストする最初のベンチマークである。
MedBrowseCompには1,000人以上の人為的な質問が含まれており、実践者が最新の結論に達するために断片化された情報や矛盾する情報を調整しなければならない臨床シナリオを反映している。
MedBrowseCompをフロンティアエージェントシステムに適用すると、パフォーマンス不足が10%も低くなり、現在のLLM機能と臨床環境で要求される厳格さの間に重要なギャップが明らかになる。
したがってMedBrowseCompは、信頼できる医療情報を探すための明確なテストベッドを提供し、将来のモデルとツールチェーンのアップグレードのための具体的な目標を設定している。
https://moreirap12.github.io/mbc-browse-app/
関連論文リスト
- LLM Agent Swarm for Hypothesis-Driven Drug Discovery [2.7036595757881323]
ファーマシュワーム(PharmaSwarm)は、新規な薬物標的および鉛化合物の仮説を提唱し、検証し、洗練するために、特殊な「エージェント」を編成する統合マルチエージェントフレームワークである。
PharmaSwarmはAIの副操縦士として機能することで、翻訳研究を加速し、従来のパイプラインよりも効率的に高信頼の仮説を提供することができる。
論文 参考訳(メタデータ) (2025-04-24T22:27:50Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels [19.90354530235266]
本稿では,自己学習仮説文書埋め込み (SL-HyDE) という新しい手法を導入し,この問題に対処する。
SL-HyDEは、与えられたクエリに基づいて仮説文書を生成するために、大きな言語モデル(LLM)をジェネレータとして利用する。
実世界の医療シナリオを基盤とした総合的な評価フレームワークとして,中国医療情報検索ベンチマーク(CMIRB)を提案する。
論文 参考訳(メタデータ) (2024-10-26T02:53:20Z) - TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。