論文の概要: AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator
- arxiv url: http://arxiv.org/abs/2402.09742v4
- Date: Fri, 28 Jun 2024 03:11:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 12:18:29.138124
- Title: AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator
- Title(参考訳): AI病院:マルチエージェント医療インタラクションシミュレータにおける大規模言語モデルのベンチマーク
- Authors: Zhihao Fan, Jialong Tang, Wei Chen, Siyuan Wang, Zhongyu Wei, Jun Xi, Fei Huang, Jingren Zhou,
- Abstract要約: 我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
- 参考スコア(独自算出の注目度): 69.51568871044454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence has significantly advanced healthcare, particularly through large language models (LLMs) that excel in medical question answering benchmarks. However, their real-world clinical application remains limited due to the complexities of doctor-patient interactions. To address this, we introduce \textbf{AI Hospital}, a multi-agent framework simulating dynamic medical interactions between \emph{Doctor} as player and NPCs including \emph{Patient}, \emph{Examiner}, \emph{Chief Physician}. This setup allows for realistic assessments of LLMs in clinical scenarios. We develop the Multi-View Medical Evaluation (MVME) benchmark, utilizing high-quality Chinese medical records and NPCs to evaluate LLMs' performance in symptom collection, examination recommendations, and diagnoses. Additionally, a dispute resolution collaborative mechanism is proposed to enhance diagnostic accuracy through iterative discussions. Despite improvements, current LLMs exhibit significant performance gaps in multi-turn interactions compared to one-step approaches. Our findings highlight the need for further research to bridge these gaps and improve LLMs' clinical diagnostic capabilities. Our data, code, and experimental results are all open-sourced at \url{https://github.com/LibertFan/AI_Hospital}.
- Abstract(参考訳): 人工知能は、特に医学的質問応答ベンチマークで優れている大規模言語モデル(LLM)を通じて、医療を著しく進歩させてきた。
しかし、医師と患者との相互作用の複雑さのため、実際の臨床応用は限られている。
そこで,本稿では,プレイヤとして \emph{Doctor} と NPC の動的医療相互作用をシミュレートするマルチエージェントフレームワークである \textbf{AI Hospital} を紹介する。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
症状収集, 診察勧告, 診断において, 高品質な中国医療記録とNPCを用いた多視点医療評価(MVME)ベンチマークを作成し, LLMの性能評価を行った。
さらに、反復的な議論を通じて診断精度を高めるために、紛争解決協調機構を提案する。
改良にもかかわらず、現在のLLMは1段階のアプローチに比べて、マルチターン相互作用において大きな性能差を示す。
本研究は, これらのギャップを埋め, LLMの臨床的診断能力を改善するために, さらなる研究の必要性を浮き彫りにするものである。
我々のデータ、コード、実験結果は、すべて、 \url{https://github.com/LibertFan/AI_Hospital}でオープンソース化されています。
関連論文リスト
- Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - COGNET-MD, an evaluation framework and dataset for Large Language Model benchmarks in the medical domain [1.6752458252726457]
大規模言語モデル(LLM)は最先端の人工知能(AI)技術である。
医療領域認知ネットワーク評価ツールキット(COGNET-MD)について概説する。
医用テキストの解釈におけるLCMの能力を評価するのが困難であるスコアフレームを提案する。
論文 参考訳(メタデータ) (2024-05-17T16:31:56Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
本稿では,臨床シミュレーション環境における大規模言語モデル(LLM)の評価のためのベンチマークであるAgentClinicを提案する。
本ベンチマークでは,医師は対話や活動的データ収集を通じて患者の診断を明らかにする必要がある。
偏見の導入は, 医師の診断精度を大幅に低下させるとともに, 患者エージェントのコンプライアンス, 信頼度, フォローアップ意欲を低下させる。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator [21.60103376506254]
大きな言語モデル(LLM)は、人間の相互作用において顕著な熟練性を示している。
本稿では,SAPS(State-Aware patient Simulator)とAIE(Automated Interactive Evaluation)フレームワークを紹介する。
AIEとSAPSは、多ターン医師-患者シミュレーションを通じてLCMを評価するための動的で現実的なプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-03-13T13:04:58Z) - MedKP: Medical Dialogue with Knowledge Enhancement and Clinical Pathway
Encoding [48.348511646407026]
本稿では,知識向上と臨床パスウェイ符号化フレームワークを用いた医療対話について紹介する。
このフレームワークは、医療知識グラフを介して外部知識増強モジュールと、医療機関および医師の行動を介して、内部臨床経路をコードする。
論文 参考訳(メタデータ) (2024-03-11T10:57:45Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。