論文の概要: Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions
- arxiv url: http://arxiv.org/abs/2503.22678v1
- Date: Fri, 28 Mar 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:36.351861
- Title: Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions
- Title(参考訳): 現実的臨床インタラクションのための自己進化型マルチエージェントシミュレーション
- Authors: Mohammad Almansoori, Komal Kumar, Hisham Cholakkal,
- Abstract要約: MedAgentSimは、医師、患者、測定エージェントによる、オープンソースのシミュレートされた臨床環境である。
従来のアプローチとは違って,本フレームワークでは,マルチターン会話を通じて医師が患者と活発に交流する必要がある。
我々は、モデルが診断戦略を反復的に洗練できる自己改善メカニズムを組み込んだ。
- 参考スコア(独自算出の注目度): 16.50490537786593
- License:
- Abstract: In this work, we introduce MedAgentSim, an open-source simulated clinical environment with doctor, patient, and measurement agents designed to evaluate and enhance LLM performance in dynamic diagnostic settings. Unlike prior approaches, our framework requires doctor agents to actively engage with patients through multi-turn conversations, requesting relevant medical examinations (e.g., temperature, blood pressure, ECG) and imaging results (e.g., MRI, X-ray) from a measurement agent to mimic the real-world diagnostic process. Additionally, we incorporate self improvement mechanisms that allow models to iteratively refine their diagnostic strategies. We enhance LLM performance in our simulated setting by integrating multi-agent discussions, chain-of-thought reasoning, and experience-based knowledge retrieval, facilitating progressive learning as doctor agents interact with more patients. We also introduce an evaluation benchmark for assessing the LLM's ability to engage in dynamic, context-aware diagnostic interactions. While MedAgentSim is fully automated, it also supports a user-controlled mode, enabling human interaction with either the doctor or patient agent. Comprehensive evaluations in various simulated diagnostic scenarios demonstrate the effectiveness of our approach. Our code, simulation tool, and benchmark are available at \href{https://medagentsim.netlify.app/}.
- Abstract(参考訳): 本研究は, 医師, 患者, 測定エージェントによるオープンソースのシミュレートされた臨床環境であるMedAgentSimを紹介する。
従来のアプローチとは違って,本フレームワークでは,マルチターン会話を通じて医師が患者に対して,関連する診察(例えば,温度,血圧,心電図)と画像診断(例えば,MRI,X線)を依頼し,実際の診断プロセスを模倣する。
さらに、モデルが診断戦略を反復的に洗練できる自己改善機構を組み込んだ。
我々は,複数エージェントによる議論,チェーン・オブ・ソート推論,経験に基づく知識検索を統合し,医師がより多くの患者と対話するにつれて,先進的な学習を促進することで,シミュレーション環境でのLLMのパフォーマンスを向上させる。
また,LLMの動的文脈認識型診断における能力を評価するための評価ベンチマークも導入した。
MedAgentSimは完全に自動化されていますが、ユーザコントロールモードもサポートしています。
様々なシミュレートされた診断シナリオにおける包括的評価は,本手法の有効性を示すものである。
私たちのコード、シミュレーションツール、ベンチマークは \href{https://medagentsim.netlify.app/} で利用可能です。
関連論文リスト
- Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
大規模言語モデル(LLM)は、様々な領域にわたる精度と解釈性の向上を提供する。
本論文は, コンクリートラジオロジー剤構築の前提条件について検討することを目的とする。
LLMをベースとしたエージェントのための総合的な総合的総合評価データセットRadABench-Dataを提案する。
第二にRadABench-EvalPlatは、プロンプト駆動ワークフローを特徴とするエージェントのための新しい評価プラットフォームである。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Towards Next-Generation Medical Agent: How o1 is Reshaping Decision-Making in Medical Scenarios [46.729092855387165]
本稿では,医療用AIエージェントのバックボーンLSMの選択について検討する。
我々の研究結果は、o1の診断精度と一貫性を高める能力を示し、よりスマートでより応答性の高いAIツールへの道を開いた。
論文 参考訳(メタデータ) (2024-11-16T18:19:53Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Adaptive Reasoning and Acting in Medical Language Agents [3.8936716676293917]
本稿では, 臨床シミュレーション環境における診断精度を高めるために, LLMエージェントフレームワークを提案する。
提案した自動修正により、医師は誤診断後の推論や行動を反復的に洗練することができる。
論文 参考訳(メタデータ) (2024-10-13T21:45:16Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents [19.721008909326024]
大規模言語モデル(LLM)は、医療人工知能(AI)における新しい技術革新の波を引き起こした
治療過程全体をシミュレートした,エージェント病院という病院のシミュラムを紹介した。
シラクラム内では、医師は、手動でトレーニングデータをラベル付けすることなく、多数の患者エージェントを治療することで、進化することができる。
論文 参考訳(メタデータ) (2024-05-05T14:53:51Z) - Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator [21.60103376506254]
大きな言語モデル(LLM)は、人間の相互作用において顕著な熟練性を示している。
本稿では,SAPS(State-Aware patient Simulator)とAIE(Automated Interactive Evaluation)フレームワークを紹介する。
AIEとSAPSは、多ターン医師-患者シミュレーションを通じてLCMを評価するための動的で現実的なプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-03-13T13:04:58Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。