論文の概要: Measuring What Matters!! Assessing Therapeutic Principles in Mental-Health Conversation
- arxiv url: http://arxiv.org/abs/2604.05795v3
- Date: Tue, 14 Apr 2026 11:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.117584
- Title: Measuring What Matters!! Assessing Therapeutic Principles in Mental-Health Conversation
- Title(参考訳): 物事を計測する!! メンタルヘルス会話における治療原理の評価
- Authors: Abdullah Mazhar, Het Riteshkumar Shah, Aseem Srivastava, Smriti Joshi, Md Shad Akhtar,
- Abstract要約: 臨床応用の妥当性と有効性について,AIによるセラピスト様反応の評価問題について検討した。
FAITH-Mは、専門家が指定した順序格付けを付したベンチマークである。
本稿では,対話内コンテキスト,コントラスト検索,知識拡散型連鎖推論を統合した多段階評価フレームワークCAREを提案する。
- 参考スコア(独自算出の注目度): 11.873690830791022
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The increasing use of large language models in mental health applications calls for principled evaluation frameworks that assess alignment with psychotherapeutic best practices beyond surface-level fluency. While recent systems exhibit conversational competence, they lack structured mechanisms to evaluate adherence to core therapeutic principles. In this paper, we study the problem of evaluating AI-generated therapist-like responses for clinically grounded appropriateness and effectiveness. We assess each therapists utterance along six therapeutic principles: non-judgmental acceptance, warmth, respect for autonomy, active listening, reflective understanding, and situational appropriateness using a fine-grained ordinal scale. We introduce FAITH-M, a benchmark annotated with expert-assigned ordinal ratings, and propose CARE, a multi-stage evaluation framework that integrates intra-dialogue context, contrastive exemplar retrieval, and knowledge-distilled chain-of-thought reasoning. Experiments show that CARE achieves an F-1 score of 63.34 versus the strong baseline Qwen3 F-1 score of 38.56 which is a 64.26 improvement, which also serves as its backbone, indicating that gains arise from structured reasoning and contextual modeling rather than backbone capacity alone. Expert assessment and external dataset evaluations further demonstrate robustness under domain shift, while highlighting challenges in modelling implicit clinical nuance. Overall, CARE provides a clinically grounded framework for evaluating therapeutic fidelity in AI mental health systems.
- Abstract(参考訳): メンタルヘルスアプリケーションにおける大規模言語モデルの利用の増加は、表面的な流速を超えた精神療法的ベストプラクティスとの整合性を評価する、原則化された評価フレームワークを要求している。
近年のシステムは、会話能力を示すが、中核的な治療原理の遵守を評価するための構造的なメカニズムは欠如している。
本稿では,臨床応用の妥当性と有効性を評価するために,AIによるセラピスト様の反応を評価することの問題点について検討する。
それぞれのセラピストの発話は, 偏見のない受容, 温かさ, 自律性への敬意, アクティブリスニング, 反射的理解, 状況的適切さの6つの治療原理に沿って評価される。
本稿では,専門家が指定した順序格付けを付加したベンチマークであるFAITH-Mを紹介し,対話内コンテキスト,コントラスト検索,知識分割型連鎖推論を統合した多段階評価フレームワークであるCAREを提案する。
実験の結果、CAREのF-1スコアは63.34であり、強力なベースラインであるQwen3 F-1スコアは38.56である。
専門家の評価と外部データセットの評価は、ドメインシフトの下での堅牢性をさらに証明し、暗黙の臨床的ニュアンスをモデル化する際の課題を強調している。
全体として、CAREは、AIメンタルヘルスシステムにおける治療の忠実度を評価するための臨床基盤となるフレームワークを提供する。
関連論文リスト
- Responsible Evaluation of AI for Mental Health [72.85175110624736]
メンタルヘルスケアにおけるAIツールの評価に対する現在のアプローチは、断片化されており、臨床実践、社会的コンテキスト、ファーストハンドのユーザエクスペリエンスと不整合である。
本稿では,臨床の健全性,社会的文脈,公平性を統合した学際的枠組みを導入することにより,責任ある評価を再考する。
論文 参考訳(メタデータ) (2026-01-20T12:55:10Z) - PsychEthicsBench: Evaluating Large Language Models Against Australian Mental Health Ethics [35.52940216380734]
メンタルヘルスでは、臨床的に不十分な拒絶は非共感的であり、助けを探すのを妨げていると見なすことができる。
このギャップに対処するため、私たちは拒絶中心のメトリクスを超えて、オーストラリアの心理学と精神医学のガイドラインに基づいた最初の原則に基づくベンチマークであるtextttPsychEthicsBenchを導入しました。
14モデルにわたる実証的な結果から、拒絶率は倫理的行動の指標に乏しいことが判明し、安全性の引き金と臨床的適切性の間に大きな違いがあることが判明した。
論文 参考訳(メタデータ) (2026-01-07T04:49:02Z) - Rethinking Evidence Hierarchies in Medical Language Benchmarks: A Critical Evaluation of HealthBench [0.0]
HealthBenchは、健康のためにAIシステムの能力を測定するために設計されたベンチマークである。
高レベルな臨床的証拠ではなく、専門家の意見に頼っているため、地域バイアスと個々の臨床医の同調を表わすリスクがある。
本稿では,体系的レビューとGRADEエビデンス評価を取り入れたバージョン管理臨床ガイドラインにおいて,報酬関数のアンカー化を提案する。
論文 参考訳(メタデータ) (2025-07-31T18:16:10Z) - Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling [50.83055329849865]
PsyLLMは、メンタルヘルスカウンセリングの診断と治療的推論を統合するために設計された大きな言語モデルである。
Redditから現実世界のメンタルヘルス投稿を処理し、マルチターン対話構造を生成する。
実験の結果,PsyLLMは最先端のベースラインモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-21T16:24:49Z) - A Risk Ontology for Evaluating AI-Powered Psychotherapy Virtual Agents [13.721977133773192]
大言語モデル (LLMs) と知的仮想エージェント (Intelligent Virtual Agents) は精神療法士として機能し、メンタルヘルスアクセスを拡大する機会を提供する。
彼らの展開は、ユーザーの損害や自殺など、深刻な有害な結果にも結びついている。
我々は、会話型AI心理療法士の体系的評価に特化して設計された新しいリスクオントロジーを導入する。
論文 参考訳(メタデータ) (2025-05-21T05:01:39Z) - Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Opportunities of a Machine Learning-based Decision Support System for
Stroke Rehabilitation Assessment [64.52563354823711]
リハビリテーションアセスメントは、患者の適切な介入を決定するために重要である。
現在の評価の実践は、主にセラピストの経験に依存しており、セラピストの可用性が限られているため、アセスメントは頻繁に実施される。
我々は、強化学習を用いて評価の健全な特徴を識別できるインテリジェントな意思決定支援システムを開発した。
論文 参考訳(メタデータ) (2020-02-27T17:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。