論文の概要: TherapyGym: Evaluating and Aligning Clinical Fidelity and Safety in Therapy Chatbots
- arxiv url: http://arxiv.org/abs/2603.18008v1
- Date: Mon, 23 Feb 2026 06:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.380124
- Title: TherapyGym: Evaluating and Aligning Clinical Fidelity and Safety in Therapy Chatbots
- Title(参考訳): セラピーGym:セラピーチャットボットにおける臨床忠実度と安全性の評価と調整
- Authors: Fangrui Huang, Souhad Chbeir, Arpandeep Khatua, Sheng Wang, Sijun Tan, Kenan Ye, Lily Bailey, Merryn Daniel, Ryan Louie, Sanmi Koyejo, Ehsan Adeli,
- Abstract要約: THERAPYGYMは、治療用チャットボットを2つの臨床柱に沿って評価し、改善するフレームワークである。
LLMに基づく審査員のバイアスと信頼性の低下を緩和するため、1270名の専門家による116の対話の検証セットであるTheraPyJUDGEBENCHをリリースする。
- 参考スコア(独自算出の注目度): 24.894881768337125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used for mental-health support; yet prevailing evaluation methods--fluency metrics, preference tests, and generic dialogue benchmarks--fail to capture the clinically critical dimensions of psychotherapy. We introduce THERAPYGYM, a framework that evaluates and improves therapy chatbots along two clinical pillars: fidelity and safety. Fidelity is measured using the Cognitive Therapy Rating Scale (CTRS), implemented as an automated pipeline that scores adherence to CBT techniques over multi-turn sessions. Safety is assessed using a multi-label annotation scheme, covering therapy-specific risks (e.g., failing to address harm or abuse). To mitigate bias and unreliability in LLM-based judges, we further release THERAPYJUDGEBENCH, a validation set of 116 dialogues with 1,270 expert ratings for auditing and calibration against licensed clinicians. THERAPYGYM also serves as a training harness: CTRS and safety-based rewards drive RL with configurable patient simulations spanning diverse symptom profiles. Models trained in THERAPYGYM improve on expert ratings, with average CTRS rising from 0.10 to 0.60 (and 0.16 to 0.59 under LLM judges). Our work enables scalable development of therapy chatbots that are faithful to evidence-based practice and safer in high-stakes use.
- Abstract(参考訳): 大規模言語モデル(LLM)は、精神保健支援にますます使われてきているが、その評価方法として、頻度指標、嗜好テスト、一般的な対話ベンチマークが主流であり、精神療法の臨床的に重要な側面を捉えている。
TheRAPYGYMは,治療用チャットボットを2つの臨床用柱に沿って評価・改善するフレームワークである。
認知療法評価尺度(CTRS)は、マルチターンセッションにおけるCBTテクニックの順守をスコアする自動パイプラインとして実装されている。
安全性は、治療固有のリスク(例えば、害や虐待に対処できない)をカバーするマルチラベルアノテーションスキームを用いて評価される。
LLMに基づく審査員のバイアスと信頼性の低下を緩和するため、認定医に対する監査と校正のために1,270名の専門家による116の対話の検証セットであるTheraPyJUDGEBENCHをリリースする。
また、TheRAPYGYMはトレーニングハーネスとしても機能する:CTRSと安全に基づく報酬は、様々な症状プロファイルにまたがる構成可能な患者シミュレーションでRLを駆動する。
THERAPYGYMで訓練されたモデルでは専門家の評価が向上し、平均CTRSは0.10から0.60に上昇した。
我々の研究は、エビデンスベースの実践に忠実で、高い使用率で安全なチャットボットをスケーラブルに開発することを可能にする。
関連論文リスト
- MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。
MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。
2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文 参考訳(メタデータ) (2026-03-13T22:30:26Z) - WER is Unaware: Assessing How ASR Errors Distort Clinical Understanding in Patient Facing Dialogue [3.468314243424983]
ASR(Automatic Speech Recognition)は、臨床対話においてますます普及している。
標準評価は依然としてエラーエラー率(WER)に大きく依存している。
本稿では、WERや他の一般的な指標が転写誤りの臨床的影響と相関するかどうかを基準として検討する。
論文 参考訳(メタデータ) (2025-11-20T16:59:20Z) - When Can We Trust LLMs in Mental Health? Large-Scale Benchmarks for Reliable LLM Evaluation [14.24379104658635]
MentalBench-100kは、3つの実際のシナリオデータセットから1万のワンターン会話を統合する。
MentalBench-70kreframes の評価は,7つの属性に対する70,000のレーティングに対して,ハイパフォーマンスな4人の LLM 審査員と人間専門家を比較した。
分析の結果,LLM審査員による体系的なインフレーション,ガイダンスや情報性などの認知特性の信頼性,共感の精度の低下,安全性と妥当性の信頼性の低下が明らかになった。
論文 参考訳(メタデータ) (2025-10-21T19:21:21Z) - MATRIX: Multi-Agent simulaTion fRamework for safe Interactions and conteXtual clinical conversational evaluation [3.9146063017280923]
MATRIXは、臨床対話エージェントの安全性指向評価のための構造化エンジニアリングフレームワークである。
臨床シナリオ、期待されるシステム行動、障害モードの安全性に整合した分類、安全性に関連する対話障害を検出する評価ツールであるBehvJudge、シミュレーションされた患者エージェントであるPatBotを統合している。
3つの実験で、MATRIXは系統的かつスケーラブルな安全性評価を可能にすることを示した。
論文 参考訳(メタデータ) (2025-08-26T16:12:12Z) - Reframe Your Life Story: Interactive Narrative Therapist and Innovative Moment Assessment with Large Language Models [72.36715571932696]
物語療法は、個人が問題のある人生の物語を代替品の力に変えるのに役立つ。
現在のアプローチでは、特殊精神療法ではリアリズムが欠如しており、時間とともに治療の進行を捉えることができない。
Int(Interactive Narrative Therapist)は、治療段階を計画し、反射レベルを誘導し、文脈的に適切な専門家のような反応を生成することによって、専門家の物語セラピストをシミュレートする。
論文 参考訳(メタデータ) (2025-07-27T11:52:09Z) - Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z) - Automated Fidelity Assessment for Strategy Training in Inpatient
Rehabilitation using Natural Language Processing [53.096237570992294]
戦略トレーニング (Strategy Training) とは、脳卒中後の認知障害患者に障害を減らすためのスキルを教える、リハビリテーションのアプローチである。
標準化された忠実度評価は治療原則の遵守度を測定するために用いられる。
本研究では,ルールベースNLPアルゴリズム,長短項メモリ(LSTM)モデル,および変換器(BERT)モデルからの双方向エンコーダ表現を開発した。
論文 参考訳(メタデータ) (2022-09-14T15:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。