論文の概要: When Can We Trust LLMs in Mental Health? Large-Scale Benchmarks for Reliable LLM Evaluation
- arxiv url: http://arxiv.org/abs/2510.19032v1
- Date: Tue, 21 Oct 2025 19:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.539126
- Title: When Can We Trust LLMs in Mental Health? Large-Scale Benchmarks for Reliable LLM Evaluation
- Title(参考訳): メンタルヘルスにおけるLLMの信頼はいつ可能か? : 信頼性の高いLLM評価のための大規模ベンチマーク
- Authors: Abeer Badawi, Elahe Rahimi, Md Tahmid Rahman Laskar, Sheri Grach, Lindsay Bertrand, Lames Danok, Jimmy Huang, Frank Rudzicz, Elham Dolatabadi,
- Abstract要約: MentalBench-100kは、3つの実際のシナリオデータセットから1万のワンターン会話を統合する。
MentalBench-70kreframes の評価は,7つの属性に対する70,000のレーティングに対して,ハイパフォーマンスな4人の LLM 審査員と人間専門家を比較した。
分析の結果,LLM審査員による体系的なインフレーション,ガイダンスや情報性などの認知特性の信頼性,共感の精度の低下,安全性と妥当性の信頼性の低下が明らかになった。
- 参考スコア(独自算出の注目度): 14.24379104658635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating Large Language Models (LLMs) for mental health support is challenging due to the emotionally and cognitively complex nature of therapeutic dialogue. Existing benchmarks are limited in scale, reliability, often relying on synthetic or social media data, and lack frameworks to assess when automated judges can be trusted. To address the need for large-scale dialogue datasets and judge reliability assessment, we introduce two benchmarks that provide a framework for generation and evaluation. MentalBench-100k consolidates 10,000 one-turn conversations from three real scenarios datasets, each paired with nine LLM-generated responses, yielding 100,000 response pairs. MentalAlign-70k}reframes evaluation by comparing four high-performing LLM judges with human experts across 70,000 ratings on seven attributes, grouped into Cognitive Support Score (CSS) and Affective Resonance Score (ARS). We then employ the Affective Cognitive Agreement Framework, a statistical methodology using intraclass correlation coefficients (ICC) with confidence intervals to quantify agreement, consistency, and bias between LLM judges and human experts. Our analysis reveals systematic inflation by LLM judges, strong reliability for cognitive attributes such as guidance and informativeness, reduced precision for empathy, and some unreliability in safety and relevance. Our contributions establish new methodological and empirical foundations for reliable, large-scale evaluation of LLMs in mental health. We release the benchmarks and codes at: https://github.com/abeerbadawi/MentalBench/
- Abstract(参考訳): 精神保健支援のための大規模言語モデル(LLM)の評価は、治療対話の感情的・認知学的に複雑な性質のために困難である。
既存のベンチマークは、スケール、信頼性、しばしば合成データやソーシャルメディアデータに依存し、自動判断が信頼できるかどうかを評価するためのフレームワークが欠如している。
大規模対話データセットの必要性に対処し、信頼性評価を判断するために、生成と評価のためのフレームワークを提供する2つのベンチマークを導入する。
MentalBench-100kは、3つの実シナリオデータセットから1万のワンターン会話を統合する。
認知支援スコア(CSS)と感情共鳴スコア(ARS)に分類した7つの属性に対して,高評価のLLM審査員4人と人間専門家70,000人の評価を比較検討した。
次に、信頼区間を持つクラス内相関係数(ICC)を用いた統計的手法であるAffective Cognitive Agreement Frameworkを用いて、LCM審査員と人間専門家の合意、一貫性、偏見を定量化する。
分析の結果,LLM審査員による体系的なインフレーション,ガイダンスや情報性などの認知特性の信頼性,共感の精度の低下,安全性と妥当性の信頼性の低下が明らかになった。
精神保健におけるLCMの信頼性, 大規模評価のための新しい方法論的, 実証的基盤を構築した。
https://github.com/abeerbadawi/MentalBench/
関連論文リスト
- Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs [6.0460961868478975]
臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。
我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。
間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
論文 参考訳(メタデータ) (2025-09-29T14:42:23Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Exploring Safety Alignment Evaluation of LLMs in Chinese Mental Health Dialogues via LLM-as-Judge [28.534625907655776]
PsyCrisis-Benchは、現実の中国のメンタルヘルスの対話に基づく基準のない評価ベンチマークである。
モデル応答が専門家が定義する安全原則と一致しているかどうかを評価する。
本稿では,自傷行為,自殺観念,実存的苦悩を対象とする,手作業による高品質な中国語データセットを提案する。
論文 参考訳(メタデータ) (2025-08-11T17:52:07Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Real-World Summarization: When Evaluation Reaches Its Limits [1.4197924572122094]
従来のメトリクス、トレーニング可能なメソッド、LCM-as-a-judgeアプローチを比較します。
その結果、単語のような単純なメトリクスは、人間の判断と驚くほどよく重なることがわかった。
実世界のビジネスへの影響を分析すると、誤った情報やチェック不可能な情報が最大のリスクを生んでいることが分かる。
論文 参考訳(メタデータ) (2025-07-15T17:23:56Z) - Are LLM-generated plain language summaries truly understandable? A large-scale crowdsourced evaluation [7.867257950096845]
平凡な言語要約(PLS)は,臨床医と患者との効果的なコミュニケーションを促進するために不可欠である。
大規模言語モデル(LLM)は、最近PSS生成の自動化を約束しているが、その健康情報理解を支援する効果は未だ不明である。
LLM生成PSSの大規模クラウドソース評価をAmazon Mechanical Turkで実施し,150名を対象に実験を行った。
以上の結果から, LLMは主観的評価において人書きと区別できないPSSを生成できるが, 人書きPSSは理解度が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-15T15:31:17Z) - Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。