論文の概要: MATRIX: Multi-Agent simulaTion fRamework for safe Interactions and conteXtual clinical conversational evaluation
- arxiv url: http://arxiv.org/abs/2508.19163v1
- Date: Tue, 26 Aug 2025 16:12:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.913158
- Title: MATRIX: Multi-Agent simulaTion fRamework for safe Interactions and conteXtual clinical conversational evaluation
- Title(参考訳): MATRIX:Multi-Agent simulaTion fRamework for safe Interactions and conteXtual conversational evaluation
- Authors: Ernest Lim, Yajie Vera He, Jared Joselowitz, Kate Preston, Mohita Chowdhury, Louis Williams, Aisling Higham, Katrina Mason, Mariane Melo, Tom Lawton, Yan Jia, Ibrahim Habli,
- Abstract要約: MATRIXは、臨床対話エージェントの安全性指向評価のための構造化エンジニアリングフレームワークである。
臨床シナリオ、期待されるシステム行動、障害モードの安全性に整合した分類、安全性に関連する対話障害を検出する評価ツールであるBehvJudge、シミュレーションされた患者エージェントであるPatBotを統合している。
3つの実験で、MATRIXは系統的かつスケーラブルな安全性評価を可能にすることを示した。
- 参考スコア(独自算出の注目度): 3.9146063017280923
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the growing use of large language models (LLMs) in clinical dialogue systems, existing evaluations focus on task completion or fluency, offering little insight into the behavioral and risk management requirements essential for safety-critical systems. This paper presents MATRIX (Multi-Agent simulaTion fRamework for safe Interactions and conteXtual clinical conversational evaluation), a structured, extensible framework for safety-oriented evaluation of clinical dialogue agents. MATRIX integrates three components: (1) a safety-aligned taxonomy of clinical scenarios, expected system behaviors and failure modes derived through structured safety engineering methods; (2) BehvJudge, an LLM-based evaluator for detecting safety-relevant dialogue failures, validated against expert clinician annotations; and (3) PatBot, a simulated patient agent capable of producing diverse, scenario-conditioned responses, evaluated for realism and behavioral fidelity with human factors expertise, and a patient-preference study. Across three experiments, we show that MATRIX enables systematic, scalable safety evaluation. BehvJudge with Gemini 2.5-Pro achieves expert-level hazard detection (F1 0.96, sensitivity 0.999), outperforming clinicians in a blinded assessment of 240 dialogues. We also conducted one of the first realism analyses of LLM-based patient simulation, showing that PatBot reliably simulates realistic patient behavior in quantitative and qualitative evaluations. Using MATRIX, we demonstrate its effectiveness in benchmarking five LLM agents across 2,100 simulated dialogues spanning 14 hazard scenarios and 10 clinical domains. MATRIX is the first framework to unify structured safety engineering with scalable, validated conversational AI evaluation, enabling regulator-aligned safety auditing. We release all evaluation tools, prompts, structured scenarios, and datasets.
- Abstract(参考訳): 臨床対話システムにおける大きな言語モデル(LLM)の利用が増加しているにもかかわらず、既存の評価はタスクの完了や流布に重点を置いており、安全クリティカルなシステムに必要な行動やリスク管理の要件についてはほとんど洞察を提供していない。
本稿では,臨床対話エージェントの安全性指向評価のための構造化された拡張可能なフレームワークであるMATRIX(Multi-Agent simulaTion fRamework forSafe Interactions and conteXtual Clinical conversational Evaluation)を提案する。
MATRIX は,(1) 臨床シナリオの安全性に整合した分類,構造的安全工学手法によるシステム行動,障害モード,(2) 安全関連対話障害を検出するための LLM ベースの評価器である BehvJudge と,(3) 患者エージェントである PatBot の3つの構成要素を統合した。
3つの実験で、MATRIXは系統的かつスケーラブルな安全性評価を可能にすることを示した。
Gemini 2.5-Proを用いたBehvJudgeは、専門レベルのハザード検出(F1 0.96、感度0.999)を達成し、240のダイアログを盲検で評価した。
また, LLMをベースとした患者シミュレーションにおける最初のリアリズム分析を行い, PatBotは定量的, 質的な評価において, 現実的な患者の行動を確実にシミュレートすることを示した。
MATRIXを用いて、14のハザードシナリオと10の臨床領域にまたがる2100のシミュレーション対話において、5つのLDMエージェントをベンチマークする効果を実証した。
MATRIXは、構造化安全工学をスケーラブルで検証された会話AI評価で統一する最初のフレームワークであり、規制に整合した安全監査を可能にする。
すべての評価ツール、プロンプト、構造化シナリオ、データセットをリリースします。
関連論文リスト
- A Risk Taxonomy for Evaluating AI-Powered Psychotherapy Agents [10.405048273969085]
我々は、会話型AI心理療法士の体系的評価に特化して設計された新しいリスク分類法を導入する。
我々は、カウンセリング会話中に認知モデルに基づくリスクファクターを監視して、安全でない逸脱を検出するという2つのユースケースと、シミュレーションされた患者とのAI心理療法士の自動ベンチマークについて詳細に論じる。
論文 参考訳(メタデータ) (2025-05-21T05:01:39Z) - Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions [16.50490537786593]
MedAgentSimは、医師、患者、測定エージェントによる、オープンソースのシミュレートされた臨床環境である。
従来のアプローチとは違って,本フレームワークでは,マルチターン会話を通じて医師が患者と活発に交流する必要がある。
我々は、モデルが診断戦略を反復的に洗練できる自己改善メカニズムを組み込んだ。
論文 参考訳(メタデータ) (2025-03-28T17:59:53Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - ASTRID -- An Automated and Scalable TRIaD for the Evaluation of RAG-based Clinical Question Answering Systems [0.0]
大言語モデル (LLMs) は, 臨床質問応答において有意な潜在性を示した。
RAGは、モデル応答の事実的正確性を保証するための主要なアプローチとして現れています。
現在のRAG自動測定は、臨床および会話のユースケースでは不十分である。
論文 参考訳(メタデータ) (2025-01-14T15:46:39Z) - Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。