論文の概要: Advancing AI Trustworthiness Through Patient Simulation: Risk Assessment of Conversational Agents for Antidepressant Selection
- arxiv url: http://arxiv.org/abs/2602.11391v1
- Date: Wed, 11 Feb 2026 21:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.550585
- Title: Advancing AI Trustworthiness Through Patient Simulation: Risk Assessment of Conversational Agents for Antidepressant Selection
- Title(参考訳): 患者シミュレーションによるAI信頼性の向上:抗うつ薬選択のための会話エージェントのリスク評価
- Authors: Md Tanvir Rouf Shawon, Mohammad Sabik Irbaz, Hadeel R. A. Elyazori, Keerti Reddy Resapu, Yili Lin, Vladimir Franzuela Cardenas, Farrokh Alemi, Kevin Lybarger,
- Abstract要約: 患者シミュレーターは、医療、言語、行動の次元によって異なる現実的で制御可能な患者相互作用を生成する。
シミュレーターにより、アノテータと独立したAI裁判官は、エージェントのパフォーマンスを評価し、幻覚と不正確さを特定し、さまざまな患者集団のリスクパターンを特徴づけることができる。
- 参考スコア(独自算出の注目度): 1.90974530523188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: This paper introduces a patient simulator designed to enable scalable, automated evaluation of healthcare conversational agents. The simulator generates realistic, controllable patient interactions that systematically vary across medical, linguistic, and behavioral dimensions, allowing annotators and an independent AI judge to assess agent performance, identify hallucinations and inaccuracies, and characterize risk patterns across diverse patient populations. Methods: The simulator is grounded in the NIST AI Risk Management Framework and integrates three profile components reflecting different dimensions of patient variation: (1) medical profiles constructed from electronic health records in the All of Us Research Program; (2) linguistic profiles modeling variation in health literacy and condition-specific communication patterns; and (3) behavioral profiles representing empirically observed interaction patterns, including cooperation, distraction, and adversarial engagement. We evaluated the simulator's effectiveness in identifying errors in an AI decision aid for antidepressant selection. Results: We generated 500 conversations between the patient simulator and the AI decision aid across systematic combinations of five linguistic and three behavioral profiles. Human annotators assessed 1,787 medical concepts across 100 conversations, achieving high agreement (F1=0.94, \k{appa}=0.73), and the LLM judge achieved comparable agreement with human annotators (F1=0.94, \k{appa}=0.78; paired bootstrap p=0.21). The simulator revealed a monotonic degradation in AI decision aid performance across the health literacy spectrum: rank-one concept retrieval accuracy increased from 47.9% for limited health literacy to 69.1% for functional and 81.6% for proficient.
- Abstract(参考訳): 目的: 医療用対話エージェントのスケーラブルで自動評価が可能な患者シミュレータを提案する。
このシミュレータは、医療、言語、行動の面で体系的に異なる現実的で制御可能な患者相互作用を生成し、アノテータと独立したAI裁判官がエージェントのパフォーマンスを評価し、幻覚と不正確さを特定し、多様な患者集団にまたがるリスクパターンを特徴づける。
方法: このシミュレータはNIST AI Risk Management Frameworkに基礎を置いており,(1)米国全研究プログラムにおける電子健康記録から構築された医療プロファイル,(2)健康リテラシーと状況特化コミュニケーションパターンの変動をモデル化した言語プロファイル,(3)協力,気晴らし,敵対的エンゲージメントなど,経験的に観察された相互作用パターンを表す行動プロファイルの3つのプロファイル成分を統合している。
抗うつ薬選択のためのAI決定支援における誤差同定におけるシミュレータの有効性を評価した。
結果:5つの言語と3つの行動プロファイルの体系的な組み合わせで,患者シミュレータとAI意思決定支援の間で500の会話を作成した。
ヒトアノテータは100の会話で1,787の医療概念を評価し、高い合意(F1=0.94, \k{appa}=0.73)を達成し、LSM判事はヒトアノテータと同等の合意(F1=0.94, \k{appa}=0.78, paired bootstrap p=0.21)を達成した。
このシミュレーターは、健康リテラシーのスペクトルにおけるAI決定支援性能の単調な劣化を明らかにし、ランクワンのコンセプト検索精度は、限られた健康リテラシーでは47.9%から、機能的には69.1%、熟練者は81.6%に向上した。
関連論文リスト
- DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - Mapping Patient-Perceived Physician Traits from Nationwide Online Reviews with LLMs [3.364244912862208]
本稿では,5つの人格特性と5つの患者主観的判断を推定する大規模言語モデル(LLM)に基づくパイプラインを提案する。
この分析は、米国の医師226,999人の4100万人の患者のレビューを含む。
論文 参考訳(メタデータ) (2025-10-05T02:16:35Z) - Organ-Agents: Virtual Human Physiology Simulator via LLMs [66.40796430669158]
オルガン-エージェント(Organ-Agents)は、LDM駆動のエージェントを介して人間の生理学をシミュレートする多エージェントフレームワークである。
症例は7,134例,コントロール7,895例で,9系統および125変数にわたる高分解能トラジェクトリを作成した。
臓器抗原は4,509人の保留患者に対して高いシミュレーション精度を達成し, システムごとのMSE0.16とSOFA系重症度層間の堅牢性を示した。
論文 参考訳(メタデータ) (2025-08-20T01:58:45Z) - AI Agents for Conversational Patient Triage: Preliminary Simulation-Based Evaluation with Real-World EHR Data [3.4206930658402115]
実世界の患者との出会いを利用した患者シミュレータを提案する。
本シミュレータは,症状チェックエージェントを用いた患者プレゼンテーションとマルチターン会話に対して,現実的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-06-04T14:56:08Z) - PatientSim: A Persona-Driven Simulator for Realistic Doctor-Patient Interactions [21.02633535404176]
本稿では,臨床シナリオのための現実的で多様な患者ペルソナを生成する患者シミュレータであるPatentSimを紹介する。
patientSimは、1)MIMIC-EDおよびMIMIC-IVデータセットの実際のデータから得られた症状や医療史を含む臨床プロファイル、2)性格、言語能力、医療履歴のリコールレベル、認知的混乱レベルという4つの軸で定義されたペルソナを使用する。
最も優れたオープンソースモデルであるLlama 3.3 70Bは、我々のフレームワークの堅牢性を確認するために、4人の臨床医によって検証されている。
論文 参考訳(メタデータ) (2025-05-23T12:34:48Z) - Simulated patient systems are intelligent when powered by large language model-based AI agents [32.73072809937573]
我々は,大規模言語モデルに基づくAIエージェントを用いた,インテリジェントシミュレートされた患者システムAIatientを開発した。
このシステムにはRetrieval Augmented Generationフレームワークが組み込まれており、複雑な推論のために6つのタスク固有のLLMベースのAIエージェントが使用されている。
シミュレーションの現実のために、このシステムはAIPatient KG (Knowledge Graph) も利用している。
論文 参考訳(メタデータ) (2024-09-27T17:17:15Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。