Fugu-MT 論文翻訳(概要): AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments

論文の概要: AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments

arxiv url: http://arxiv.org/abs/2405.07960v3
Date: Thu, 30 May 2024 22:56:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 19:23:22.190904
Title: AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments
Title（参考訳）: AgentClinic: シミュレーションされた臨床環境でAIを評価するマルチモーダルエージェントベンチマーク
Authors: Samuel Schmidgall, Rojin Ziaei, Carl Harris, Eduardo Reis, Jeffrey Jopling, Michael Moor,
Abstract要約: 本稿では,臨床シミュレーション環境における大規模言語モデル(LLM)の評価のためのベンチマークであるAgentClinicを提案する。本ベンチマークでは,医師は対話や活動的データ収集を通じて患者の診断を明らかにする必要がある。偏見の導入は, 医師の診断精度を大幅に低下させるとともに, 患者エージェントのコンプライアンス, 信頼度, フォローアップ意欲を低下させる。
参考スコア（独自算出の注目度）: 2.567146936147657
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diagnosing and managing a patient is a complex, sequential decision making process that requires physicians to obtain information -- such as which tests to perform -- and to act upon it. Recent advances in artificial intelligence (AI) and large language models (LLMs) promise to profoundly impact clinical care. However, current evaluation schemes overrely on static medical question-answering benchmarks, falling short on interactive decision-making that is required in real-life clinical work. Here, we present AgentClinic: a multimodal benchmark to evaluate LLMs in their ability to operate as agents in simulated clinical environments. In our benchmark, the doctor agent must uncover the patient's diagnosis through dialogue and active data collection. We present two open medical agent benchmarks: a multimodal image and dialogue environment, AgentClinic-NEJM, and a dialogue-only environment, AgentClinic-MedQA. We embed cognitive and implicit biases both in patient and doctor agents to emulate realistic interactions between biased agents. We find that introducing bias leads to large reductions in diagnostic accuracy of the doctor agents, as well as reduced compliance, confidence, and follow-up consultation willingness in patient agents. Evaluating a suite of state-of-the-art LLMs, we find that several models that excel in benchmarks like MedQA are performing poorly in AgentClinic-MedQA. We find that the LLM used in the patient agent is an important factor for performance in the AgentClinic benchmark. We show that both having limited interactions as well as too many interaction reduces diagnostic accuracy in doctor agents. The code and data for this work is publicly available at https://AgentClinic.github.io.
Abstract（参考訳）: 患者の診断と管理は複雑でシーケンシャルな意思決定プロセスであり、医師は情報を得る必要がある。人工知能(AI)と大規模言語モデル(LLM)の最近の進歩は、臨床医療に大きな影響を与えることを約束している。しかし、現在の評価スキームは静的な医学的質問答えベンチマークに過度に頼っており、実際の臨床研究に必要な対話的な意思決定には不足している。本稿では, LLMs をシミュレートされた臨床環境において, エージェントとして操作する能力を評価するマルチモーダルベンチマークである AgentClinic を提案する。本ベンチマークでは,医師は対話や活動的データ収集を通じて患者の診断を明らかにする必要がある。本稿では,マルチモーダル画像と対話環境であるAgentClinic-NEJMと,対話専用環境であるAgentClinic-MedQAの2つのオープンメディカルエージェントベンチマークを提案する。患者エージェントと医師エージェントの両方に認知バイアスと暗黙バイアスを組み込んで、偏見のあるエージェント間の現実的な相互作用をエミュレートする。偏見の導入は, 医師の診断精度を大幅に低下させるとともに, 患者エージェントのコンプライアンス, 信頼度, フォローアップ相談意欲を低下させる。 MedQAのようなベンチマークで優れているいくつかのモデルが、AgentClinic-MedQAでは不十分であることが判明した。我々は,患者エージェントで使用するLSMが,AgentClinicベンチマークにおけるパフォーマンスの重要な要因であることが判明した。本研究は, 医師エージェントの診断精度を低下させるとともに, 相互作用が限定的であり, 相互作用が多すぎることも示している。この作業のコードとデータはhttps://AgentClinic.github.io.comで公開されている。

関連論文リスト

Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions [16.50490537786593]
MedAgentSimは、医師、患者、測定エージェントによる、オープンソースのシミュレートされた臨床環境である。従来のアプローチとは違って,本フレームワークでは,マルチターン会話を通じて医師が患者と活発に交流する必要がある。我々は、モデルが診断戦略を反復的に洗練できる自己改善メカニズムを組み込んだ。
論文参考訳（メタデータ） (2025-03-28T17:59:53Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文参考訳（メタデータ） (2024-12-02T15:25:02Z)
ReflecTool: Towards Reflection-Aware Tool-Augmented Clinical Agents [22.596827147978598]
大規模言語モデル(LLM)は医療分野で有望な可能性を示している。 ClinicalAgent Bench (CAB) は、5つの重要な臨床次元にわたる18のタスクからなる総合的な医療エージェントベンチマークである。 ReflecToolはドメイン固有のツールを2段階以内で利用できる新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-23T08:19:18Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。 6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文参考訳（メタデータ） (2024-04-25T15:51:06Z)
ClinicalAgent: Clinical Trial Multi-Agent System with Large Language Model-based Reasoning [16.04933261211837]
大規模言語モデル(LLM)とマルチエージェントシステムは、自然言語処理において顕著な能力を示しているが、臨床試験では課題に直面している。臨床用マルチエージェントシステムである臨床エージェントシステム(ClinicalAgent)について紹介する。
論文参考訳（メタデータ） (2024-04-23T06:30:53Z)
Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-03-25T06:17:54Z)
Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。 Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。 10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文参考訳（メタデータ） (2023-09-14T05:15:01Z)
TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文参考訳（メタデータ） (2023-07-19T12:35:09Z)
Large Language Models for Healthcare Data Augmentation: An Example on Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文参考訳（メタデータ） (2023-03-24T03:14:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。