論文の概要: Assessing the Quality of Mental Health Support in LLM Responses through Multi-Attribute Human Evaluation
- arxiv url: http://arxiv.org/abs/2601.18630v1
- Date: Mon, 26 Jan 2026 16:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.921238
- Title: Assessing the Quality of Mental Health Support in LLM Responses through Multi-Attribute Human Evaluation
- Title(参考訳): マルチ属性・ヒューマン・アセスメントによるLCM反応のメンタルヘルスサポートの質の評価
- Authors: Abeer Badawi, Md Tahmid Rahman Laskar, Elahe Rahimi, Sheri Grach, Lindsay Bertrand, Lames Danok, Frank Rudzicz, Jimmy Huang, Elham Dolatabadi,
- Abstract要約: 継続的な治療のギャップ、可用性、資格あるセラピストの不足を特徴とする世界的なメンタルヘルス危機のエスカレートは、スケーラブルなサポートのための有望な道として、Large Language Models (LLMs) を位置づけている。
本稿では,治療対話におけるLLM生成応答の評価を目的とした人為的評価手法を提案する。
- 参考スコア(独自算出の注目度): 14.243791046586347
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The escalating global mental health crisis, marked by persistent treatment gaps, availability, and a shortage of qualified therapists, positions Large Language Models (LLMs) as a promising avenue for scalable support. While LLMs offer potential for accessible emotional assistance, their reliability, therapeutic relevance, and alignment with human standards remain challenging to address. This paper introduces a human-grounded evaluation methodology designed to assess LLM generated responses in therapeutic dialogue. Our approach involved curating a dataset of 500 mental health conversations from datasets with real-world scenario questions and evaluating the responses generated by nine diverse LLMs, including closed source and open source models. More specifically, these responses were evaluated by two psychiatric trained experts, who independently rated each on a 5 point Likert scale across a comprehensive 6 attribute rubric. This rubric captures Cognitive Support and Affective Resonance, providing a multidimensional perspective on therapeutic quality. Our analysis reveals that LLMs provide strong cognitive reliability by producing safe, coherent, and clinically appropriate information, but they demonstrate unstable affective alignment. Although closed source models (e.g., GPT-4o) offer balanced therapeutic responses, open source models show greater variability and emotional flatness. We reveal a persistent cognitive-affective gap and highlight the need for failure aware, clinically grounded evaluation frameworks that prioritize relational sensitivity alongside informational accuracy in mental health oriented LLMs. We advocate for balanced evaluation protocols with human in the loop that center on therapeutic sensitivity and provide a framework to guide the responsible design and clinical oversight of mental health oriented conversational AI.
- Abstract(参考訳): 継続的な治療のギャップ、可用性、資格あるセラピストの不足を特徴とする世界的なメンタルヘルス危機のエスカレートは、スケーラブルなサポートのための有望な道として、Large Language Models (LLMs) を位置づけている。
LLMは、アクセス可能な感情支援の可能性をもっているが、その信頼性、治療関連性、および人間の標準との整合性は、解決が難しいままである。
本稿では,治療対話におけるLLM生成応答の評価を目的とした人為的評価手法を提案する。
われわれのアプローチでは、実際のシナリオ質問を含むデータセットから500件のメンタルヘルス会話のデータセットを算出し、クローズドソースやオープンソースモデルを含む9つのLCMによって生成された応答を評価しました。
より具体的には、これらの反応は2人の精神医学専門家によって評価された。
このルーリックは認知的サポートと感情共鳴を捉え、治療品質の多次元的視点を提供する。
分析の結果, LLMは安全で一貫性があり, 臨床的に適切な情報を生成できるが, 不安定な情緒的アライメントを示す。
クローズドソースモデル(例: GPT-4o)はバランスの取れた治療反応を提供するが、オープンソースモデルはより多様性と感情的平坦性を示す。
心的健康志向のLSMにおいて、情報的正確性とともに関係感度を優先する、障害を認識し、臨床に根ざした評価フレームワークの必要性を明らかにする。
我々は、治療感度を中心としたループ内の人間とのバランスの取れた評価プロトコルを提唱し、メンタルヘルス指向の会話AIの責任ある設計と臨床上の監督を導くための枠組みを提供する。
関連論文リスト
- MindEval: Benchmarking Language Models on Multi-turn Mental Health Support [10.524387723320432]
MindEvalは、現実的でマルチターンのメンタルヘルスセラピー会話において、言語モデルを自動的に評価するためのフレームワークである。
シミュレーションされた患者が生成したテキストに対する現実性を定量的に検証し、自動判断と人的判断との間に強い相関関係を示す。
われわれは12の最先端のLCMを評価し、AI固有のコミュニケーションパターンに特に弱点がある平均6点中4点以下で、すべてのモデルが苦戦していることを示す。
論文 参考訳(メタデータ) (2025-11-23T15:19:29Z) - Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs [6.0460961868478975]
臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。
我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。
間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
論文 参考訳(メタデータ) (2025-09-29T14:42:23Z) - Reframe Your Life Story: Interactive Narrative Therapist and Innovative Moment Assessment with Large Language Models [72.36715571932696]
物語療法は、個人が問題のある人生の物語を代替品の力に変えるのに役立つ。
現在のアプローチでは、特殊精神療法ではリアリズムが欠如しており、時間とともに治療の進行を捉えることができない。
Int(Interactive Narrative Therapist)は、治療段階を計画し、反射レベルを誘導し、文脈的に適切な専門家のような反応を生成することによって、専門家の物語セラピストをシミュレートする。
論文 参考訳(メタデータ) (2025-07-27T11:52:09Z) - MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。
MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文 参考訳(メタデータ) (2025-06-04T09:18:25Z) - Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling [50.83055329849865]
PsyLLMは、メンタルヘルスカウンセリングの診断と治療的推論を統合するために設計された大きな言語モデルである。
Redditから現実世界のメンタルヘルス投稿を処理し、マルチターン対話構造を生成する。
実験の結果,PsyLLMは最先端のベースラインモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-21T16:24:49Z) - ProMind-LLM: Proactive Mental Health Care via Causal Reasoning with Sensor Data [5.961343130822046]
メンタルヘルスのリスクは、世界の公衆衛生にとって重要な課題である。
大規模言語モデル(LLMs)の開発により、それらは説明可能な精神医療応用のための有望なツールであることが注目されている。
本稿では、主観的心的記録と相補的な情報として客観的行動データを統合する革新的なアプローチであるProMind-LLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T07:36:28Z) - Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - PALLM: Evaluating and Enhancing PALLiative Care Conversations with Large Language Models [10.258261180305439]
大規模言語モデル(LLM)は、複雑なコミュニケーションメトリクスを評価するための新しいアプローチを提供する。
LLMは受動的センシングシステムとジャスト・イン・タイム・イン・タイム・イン・イン・介入システムとの統合を通じて、分野を前進させる可能性を提供する。
本研究は, 言語, 文脈内学習, 推論能力を活用した緩和ケアコミュニケーションの質評価手法としてLLMについて検討する。
論文 参考訳(メタデータ) (2024-09-23T16:39:12Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。