論文の概要: MindEval: Benchmarking Language Models on Multi-turn Mental Health Support
- arxiv url: http://arxiv.org/abs/2511.18491v2
- Date: Tue, 25 Nov 2025 10:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 15:01:35.377339
- Title: MindEval: Benchmarking Language Models on Multi-turn Mental Health Support
- Title(参考訳): MindEval: マルチターンメンタルヘルスサポートのための言語モデルのベンチマーク
- Authors: José Pombal, Maya D'Eon, Nuno M. Guerreiro, Pedro Henrique Martins, António Farinhas, Ricardo Rei,
- Abstract要約: MindEvalは、現実的でマルチターンのメンタルヘルスセラピー会話において、言語モデルを自動的に評価するためのフレームワークである。
シミュレーションされた患者が生成したテキストに対する現実性を定量的に検証し、自動判断と人的判断との間に強い相関関係を示す。
われわれは12の最先端のLCMを評価し、AI固有のコミュニケーションパターンに特に弱点がある平均6点中4点以下で、すべてのモデルが苦戦していることを示す。
- 参考スコア(独自算出の注目度): 10.524387723320432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Demand for mental health support through AI chatbots is surging, though current systems present several limitations, like sycophancy or overvalidation, and reinforcement of maladaptive beliefs. A core obstacle to the creation of better systems is the scarcity of benchmarks that capture the complexity of real therapeutic interactions. Most existing benchmarks either only test clinical knowledge through multiple-choice questions or assess single responses in isolation. To bridge this gap, we present MindEval, a framework designed in collaboration with Ph.D-level Licensed Clinical Psychologists for automatically evaluating language models in realistic, multi-turn mental health therapy conversations. Through patient simulation and automatic evaluation with LLMs, our framework balances resistance to gaming with reproducibility via its fully automated, model-agnostic design. We begin by quantitatively validating the realism of our simulated patients against human-generated text and by demonstrating strong correlations between automatic and human expert judgments. Then, we evaluate 12 state-of-the-art LLMs and show that all models struggle, scoring below 4 out of 6, on average, with particular weaknesses in problematic AI-specific patterns of communication. Notably, reasoning capabilities and model scale do not guarantee better performance, and systems deteriorate with longer interactions or when supporting patients with severe symptoms. We release all code, prompts, and human evaluation data.
- Abstract(参考訳): AIチャットボットによるメンタルヘルスサポートの需要は急増しているが、現在のシステムには、梅毒や過剰摂取、不適応な信念の強化など、いくつかの制限がある。
より良いシステムを作る上での障害は、実際の治療相互作用の複雑さを捉えるベンチマークの不足である。
既存のベンチマークのほとんどは、複数の選択質問を通じて臨床知識をテストするか、単独で単一の反応を評価するだけである。
このギャップを埋めるために、我々はMindEvalというフレームワークをPh.D.レベルの臨床心理学者と共同で設計し、現実的でマルチターンのメンタルヘルスセラピーにおける言語モデルを自動的に評価する。
LLMによる患者シミュレーションと自動評価により,本フレームワークは,完全に自動化されたモデルに依存しない設計により,再現性とゲームに対する耐性のバランスをとる。
まず, シミュレーション患者が生成したテキストに対する現実性を定量的に検証し, 自動判断と人的判断との間に強い相関関係を示すことから始める。
そして、12の最先端のLCMを評価し、AI固有のコミュニケーションパターンに特に弱点がある6点中4点以下で、すべてのモデルが苦戦していることを示す。
特に、推論能力とモデルスケールは、より良いパフォーマンスを保証せず、システムは長い相互作用や重篤な症状を持つ患者を支援するときに悪化する。
すべてのコード、プロンプト、人間の評価データをリリースします。
関連論文リスト
- A Comprehensive Review of Datasets for Clinical Mental Health AI Systems [55.67299586253951]
本稿では,AIを活用した臨床アシスタントの訓練・開発に関連する臨床精神保健データセットの総合的調査を行う。
本調査では, 縦断データの欠如, 文化・言語表現の制限, 一貫性のない収集・注釈基準, 合成データのモダリティの欠如など, 重要なギャップを明らかにした。
論文 参考訳(メタデータ) (2025-08-13T13:42:35Z) - MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。
MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文 参考訳(メタデータ) (2025-06-04T09:18:25Z) - Reasoning Is Not All You Need: Examining LLMs for Multi-Turn Mental Health Conversations [13.064927179032756]
MedAgentは、現実的で多ターンのメンタルヘルス・センスメイキングの会話を合成的に生成する新しいフレームワークである。
医療環境におけるLLMのマルチターン会話能力を評価するための総合的フレームワークであるMultiSenseEvalを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:42:02Z) - Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling [50.83055329849865]
PsyLLMは、メンタルヘルスカウンセリングの診断と治療的推論を統合するために設計された大きな言語モデルである。
Redditから現実世界のメンタルヘルス投稿を処理し、マルチターン対話構造を生成する。
実験の結果,PsyLLMは最先端のベースラインモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-21T16:24:49Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - From Classification to Clinical Insights: Towards Analyzing and Reasoning About Mobile and Behavioral Health Data With Large Language Models [21.427976533706737]
我々は,多センサデータから臨床的に有用な知見を合成するために,大規模言語モデルを活用する新しいアプローチを採っている。
うつ病や不安などの症状とデータの傾向がどのように関連しているかを,LSMを用いて推論する思考促進手法の連鎖を構築した。
GPT-4のようなモデルでは数値データの75%を正確に参照しており、臨床参加者は、この手法を用いて自己追跡データを解釈することへの強い関心を表明している。
論文 参考訳(メタデータ) (2023-11-21T23:53:27Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。