論文の概要: PSI-Bench: Towards Clinically Grounded and Interpretable Evaluation of Depression Patient Simulators
- arxiv url: http://arxiv.org/abs/2604.25840v1
- Date: Tue, 28 Apr 2026 16:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.954956
- Title: PSI-Bench: Towards Clinically Grounded and Interpretable Evaluation of Depression Patient Simulators
- Title(参考訳): PSI-Bench : うつ病患者シミュレーションの臨床的・解釈的評価に向けて
- Authors: Nguyen Khoi Hoang, Shuhaib Mehri, Tse-An Hsu, Yi-Jyun Sun, Quynh Xuan Nguyen Truong, Khoa D Doan, Dilek Hakkani-Tür,
- Abstract要約: PSI-Benchは、うつ病患者シミュレーターの動作を解釈し、臨床的に根拠づけた診断を提供する自動評価フレームワークである。
PSI-Benchを用いて、2つのシミュレーターフレームワーク間で7つのLSMをベンチマークし、シミュレーターが過度に長く、語彙的に多様な応答を生成することを発見した。
人間の研究では、ベンチマークが専門家の判断と強く一致していることが示されています。
- 参考スコア(独自算出の注目度): 14.323763649788907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Patient simulators are gaining traction in mental health training by providing scalable exposure to complex and sensitive patient interactions. Simulating depressed patients is particularly challenging, as safety constraints and high patient variability complicate simulations and underscore the need for simulators that capture diverse and realistic patient behaviors. However, existing evaluations heavily rely on LLM-judges with poorly specified prompts and do not assess behavioral diversity. We introduce PSI-Bench, an automatic evaluation framework that provides interpretable, clinically grounded diagnostics of depression patient simulator behavior across turn-, dialogue-, and population-level dimensions. Using PSI-Bench, we benchmark seven LLMs across two simulator frameworks and find that simulators produce overly long, lexically diverse responses, show reduced variability, resolve emotions too quickly, and follow a uniform negative-to-positive trajectory. We also show that the simulation framework has a larger impact on fidelity than the model scale. Results from a human study demonstrate that our benchmark is strongly aligned with expert judgments. Our work reveals key limitations of current depression patient simulators and provides an interpretable, extensible benchmark to guide future simulator design and evaluation.
- Abstract(参考訳): 患者シミュレーターは、複雑で敏感な患者との対話にスケーラブルな露出を提供することによって、メンタルヘルストレーニングの牽引力を高めている。
うつ病患者をシミュレーションすることは特に困難であり、安全性の制約と高い患者変動性はシミュレーションを複雑にし、多様な現実的な患者の振る舞いを捉えるシミュレータの必要性を浮き彫りにする。
しかし、既存の評価はLLM-judgesに大きく依存しており、明確なプロンプトが乏しく、行動の多様性を評価できない。
PSI-Benchは, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒, 転倒,
PSI-Benchを用いて、2つのシミュレーターフレームワーク間で7つのLSMをベンチマークし、シミュレータが過度に長く、語彙的に多様な応答を生成し、ばらつきを減らし、感情を素早く解決し、均一な負対正の軌道に従うことを発見した。
また,シミュレーションフレームワークがモデルスケールよりも忠実度に大きく影響していることも示す。
人間の研究では、ベンチマークが専門家の判断と強く一致していることが示されています。
我々の研究は、現在のうつ病患者シミュレーターの重要な限界を明らかにし、将来のシミュレーターの設計と評価をガイドするための解釈可能で拡張可能なベンチマークを提供する。
関連論文リスト
- Beyond Prompt: Fine-grained Simulation of Cognitively Impaired Standardized Patients via Stochastic Steering [58.85421622061983]
認知障害患者の微粒化シミュレーションのためのStsPatientを提案する。
対照的な命令と応答のペアからステアリングベクトルを抽出することにより、ドメイン固有の特徴を捉える。
StsPatientは、臨床の信頼性と重症度の両方において、ベースラインを著しく上回る。
論文 参考訳(メタデータ) (2026-04-14T02:37:46Z) - Multi-Stage Patient Role-Playing Framework for Realistic Clinical Interactions [2.1897719729390173]
中国初の患者シミュレーションデータセット(Ch-PatientSim)を提案する。
患者は5次元のペルソナ構造に基づいてシミュレートされる。
ペルソナクラスの不均衡の問題に対処するため、データセットの一部は、数ショット生成を使用して拡張され、続いて手動検証が行われる。
論文 参考訳(メタデータ) (2026-01-16T02:34:22Z) - Adversarial Training for Failure-Sensitive User Simulation in Mental Health Dialogue Optimization [1.964225730132177]
効果的なシミュレータの重要な特性は、評価したシステムの障害モードを公開する能力である。
本稿では,ジェネレータ(ユーザシミュレータ)とディスクリミネータの競合ダイナミクスを用いて,ユーザシミュレータリアリズムを改善するための逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-23T21:21:08Z) - MindEval: Benchmarking Language Models on Multi-turn Mental Health Support [10.524387723320432]
MindEvalは、現実的でマルチターンのメンタルヘルスセラピー会話において、言語モデルを自動的に評価するためのフレームワークである。
シミュレーションされた患者が生成したテキストに対する現実性を定量的に検証し、自動判断と人的判断との間に強い相関関係を示す。
われわれは12の最先端のLCMを評価し、AI固有のコミュニケーションパターンに特に弱点がある平均6点中4点以下で、すべてのモデルが苦戦していることを示す。
論文 参考訳(メタデータ) (2025-11-23T15:19:29Z) - SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors [58.87134689752605]
我々は,LLMシミュレーションの堅牢で再現可能な科学のための,最初の大規模標準ベンチマークであるSimBenchを紹介する。
現在、最高のLLMでさえシミュレーション能力が限られ(スコア: 40.80/100)、性能はモデルサイズと対数的にスケールする。
シミュレーション能力は、深い知識集約的推論と最も強く相関していることを示す。
論文 参考訳(メタデータ) (2025-10-20T13:14:38Z) - AI Agents for Conversational Patient Triage: Preliminary Simulation-Based Evaluation with Real-World EHR Data [3.4206930658402115]
実世界の患者との出会いを利用した患者シミュレータを提案する。
本シミュレータは,症状チェックエージェントを用いた患者プレゼンテーションとマルチターン会話に対して,現実的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-06-04T14:56:08Z) - MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。
MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文 参考訳(メタデータ) (2025-06-04T09:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。