論文の概要: CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmark of Large Language Models in Mental Health Counseling
- arxiv url: http://arxiv.org/abs/2506.08584v1
- Date: Tue, 10 Jun 2025 08:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.058468
- Title: CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmark of Large Language Models in Mental Health Counseling
- Title(参考訳): CounselBench:メンタルヘルスカウンセリングにおける大規模言語モデルの大規模専門家評価と対立ベンチマーク
- Authors: Yahan Li, Jifan Yao, John Bosco S. Bunyi, Adam C. Frank, Angel Hwang, Ruishan Liu,
- Abstract要約: 大規模言語モデル(LLM)は、メンタルヘルスサポートのためにますます提案されているが、現実的なカウンセリングシナリオにおけるそれらの振る舞いは、ほとんどテストされていない。
コウンセルベンチ(CounselBench)は、100人のメンタルヘルス専門家と共同で開発され、シングルターンカウンセリングにおけるLLMの評価とストレステストを行う大規模ベンチマークである。
- 参考スコア(独自算出の注目度): 0.6597195879147557
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly proposed for use in mental health support, yet their behavior in realistic counseling scenarios remains largely untested. We introduce CounselBench, a large-scale benchmark developed with 100 mental health professionals to evaluate and stress-test LLMs in single-turn counseling. The first component, CounselBench-EVAL, contains 2,000 expert evaluations of responses from GPT-4, LLaMA 3, Gemini, and online human therapists to real patient questions. Each response is rated along six clinically grounded dimensions, with written rationales and span-level annotations. We find that LLMs often outperform online human therapists in perceived quality, but experts frequently flag their outputs for safety concerns such as unauthorized medical advice. Follow-up experiments show that LLM judges consistently overrate model responses and overlook safety issues identified by human experts. To probe failure modes more directly, we construct CounselBench-Adv, an adversarial dataset of 120 expert-authored counseling questions designed to trigger specific model issues. Evaluation across 2,880 responses from eight LLMs reveals consistent, model-specific failure patterns. Together, CounselBench establishes a clinically grounded framework for benchmarking and improving LLM behavior in high-stakes mental health settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、メンタルヘルスサポートのためにますます提案されているが、現実的なカウンセリングシナリオにおけるそれらの振る舞いは、ほとんどテストされていない。
コウンセルベンチ(CounselBench)は、100人のメンタルヘルス専門家と共同で開発され、シングルターンカウンセリングにおけるLLMの評価とストレステストを行う大規模ベンチマークである。
最初のコンポーネントであるCounselBench-EVALは、GPT-4、LLaMA 3、Gemini、およびオンラインのヒトセラピストから実際の患者への回答に関する2,000の専門家評価を含んでいる。
各応答は、6つの臨床的根拠のある次元に沿って評価され、有理とスパンレベルのアノテーションが書かれる。
LLMは、知覚的品質において、オンラインのヒトセラピストよりも優れていることが多いが、専門家は、許可されていない医療アドバイスなどの安全上の懸念に対して、アウトプットをフラグ付けすることが多い。
フォローアップ実験では、LLMの審査員がモデルの反応を常にオーバーレイし、人間の専門家が特定した安全性の問題を見落としている。
より直接的にフェールモードを探索するために、特定のモデル問題を引き起こすために設計された120名の専門家によるカウンセリング質問の逆データセットであるCounselBench-Advを構築した。
8つのLSMからの2,880の応答に対する評価は、一貫性のあるモデル固有の障害パターンを示している。
CounselBenchは、高リスクのメンタルヘルス環境でのLCMの行動のベンチマークと改善のための臨床基盤の枠組みを確立している。
関連論文リスト
- Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Do Large Language Models Align with Core Mental Health Counseling Competencies? [19.375161727597536]
大規模言語モデル(LLM)は、メンタルヘルス専門家の世界的な不足に対する有望な解決策である。
NCMHCEベースの新しいベンチマークであるCounselingBenchを紹介する。
以上の結果から,コアメンタルヘルスカウンセリング能力と整合した,高度に調整されたモデルの必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-10-29T18:27:11Z) - Interactive Agents: Simulating Counselor-Client Psychological Counseling via Role-Playing LLM-to-LLM Interactions [12.455050661682051]
本稿では,カウンセラーとクライアントの相互作用をシミュレートするためのロールプレイングを通じて,2つの大きな言語モデル(LLM)を利用するフレームワークを提案する。
我々のフレームワークは2つのLCMで構成され、1つは特定の実生活のユーザープロファイルを備えたクライアントとして機能し、もう1つは経験豊富なカウンセラーとして機能する。
論文 参考訳(メタデータ) (2024-08-28T13:29:59Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - Exploring the Efficacy of Large Language Models in Summarizing Mental
Health Counseling Sessions: A Benchmark Study [17.32433545370711]
セッションの包括的な要約は、メンタルヘルスカウンセリングにおいて効果的な継続を可能にする。
手動要約は、専門家の注意をコアカウンセリングプロセスから逸脱させ、重要な課題を呈する。
本研究は、治療セッションの様々な構成要素を選択的に要約する上で、最先端の大規模言語モデル(LLM)の有効性を評価する。
論文 参考訳(メタデータ) (2024-02-29T11:29:47Z) - A Computational Framework for Behavioral Assessment of LLM Therapists [7.665475687919995]
ChatGPTのような大規模言語モデル(LLM)は、精神的な健康問題に対処するためのセラピストとしての使用に対する関心が高まっている。
LLMセラピストの会話行動を体系的に評価するための概念実証フレームワークBOLTを提案する。
論文 参考訳(メタデータ) (2024-01-01T17:32:28Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。