論文の概要: Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking
- arxiv url: http://arxiv.org/abs/2412.01605v1
- Date: Mon, 02 Dec 2024 15:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:37.500238
- Title: Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking
- Title(参考訳): Medchain: 対話型シークエンシャルベンチマークによるLSMエージェントと臨床実践のギャップを埋める
- Authors: Jie Liu, Wenxuan Wang, Zizhan Ma, Guolin Huang, Yihang SU, Kao-Jung Chang, Wenting Chen, Haoliang Li, Linlin Shen, Michael Lyu,
- Abstract要約: 臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
- 参考スコア(独自算出の注目度): 58.25862290294702
- License:
- Abstract: Clinical decision making (CDM) is a complex, dynamic process crucial to healthcare delivery, yet it remains a significant challenge for artificial intelligence systems. While Large Language Model (LLM)-based agents have been tested on general medical knowledge using licensing exams and knowledge question-answering tasks, their performance in the CDM in real-world scenarios is limited due to the lack of comprehensive testing datasets that mirror actual medical practice. To address this gap, we present MedChain, a dataset of 12,163 clinical cases that covers five key stages of clinical workflow. MedChain distinguishes itself from existing benchmarks with three key features of real-world clinical practice: personalization, interactivity, and sequentiality. Further, to tackle real-world CDM challenges, we also propose MedChain-Agent, an AI system that integrates a feedback mechanism and a MCase-RAG module to learn from previous cases and adapt its responses. MedChain-Agent demonstrates remarkable adaptability in gathering information dynamically and handling sequential clinical tasks, significantly outperforming existing approaches. The relevant dataset and code will be released upon acceptance of this paper.
- Abstract(参考訳): 臨床意思決定(CDM)は、医療提供に不可欠な複雑で動的なプロセスであるが、人工知能システムにとって重要な課題である。
LLM(Large Language Model)ベースのエージェントは、ライセンス試験と知識質問応答タスクを用いて一般の医療知識でテストされているが、実際のシナリオにおけるCDMのパフォーマンスは、実際の医療実践を反映した包括的なテストデータセットが欠如しているため、制限されている。
このギャップに対処するため、臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
MedChainは、実際の臨床の3つの重要な特徴であるパーソナライゼーション、対話性、シーケンシャル性を持つ既存のベンチマークと差別化している。
さらに、実世界のCDM課題に取り組むために、フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentを提案する。
MedChain-Agentは、情報を動的に収集し、シーケンシャルな臨床タスクを扱う際に顕著な適応性を示し、既存のアプローチを著しく上回っている。
関連するデータセットとコードは、この記事の受理時にリリースされる。
関連論文リスト
- A Demonstration of Adaptive Collaboration of Large Language Models for Medical Decision-Making [38.2229221645303]
大規模言語モデル(LLM)は、膨大な医療知識とマルチモーダルヘルスデータを合成することで、このプロセスを合理化することを約束する。
我々のMDAgentsは、タスクの複雑さに基づいて協調構造をLLMに動的に割り当てることで、このニーズに対処します。
このフレームワークは、診断精度を改善し、複雑な現実世界の医療シナリオにおける適応応答をサポートする。
論文 参考訳(メタデータ) (2024-10-31T22:58:08Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - ClinicalAgent: Clinical Trial Multi-Agent System with Large Language Model-based Reasoning [16.04933261211837]
大規模言語モデル(LLM)とマルチエージェントシステムは、自然言語処理において顕著な能力を示しているが、臨床試験では課題に直面している。
臨床用マルチエージェントシステムである臨床エージェントシステム(ClinicalAgent)について紹介する。
論文 参考訳(メタデータ) (2024-04-23T06:30:53Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。