論文の概要: CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering
- arxiv url: http://arxiv.org/abs/2506.08584v2
- Date: Wed, 01 Oct 2025 17:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.629224
- Title: CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering
- Title(参考訳): CounselBench: メンタルヘルス質問応答における大規模言語モデルの大規模専門家評価と逆ベンチマーク
- Authors: Yahan Li, Jifan Yao, John Bosco S. Bunyi, Adam C. Frank, Angel Hwang, Ruishan Liu,
- Abstract要約: 我々は,100人のメンタルヘルス専門家による大規模ベンチマークであるCounselBenchを紹介し,大規模言語モデル(LLM)の評価とストレステストを行う。
最初のコンポーネントであるCounselBench-EVALは、公開フォーラムCounselChatの患者に対する質問に対して、GPT-4、LLaMA 3、Gemini、およびヒトセラピストから2000の専門家による回答の評価を含んでいる。
専門家による評価では、LLMはいくつかの次元において高いスコアを得る一方で、非建設的フィードバック、過度な一般化、限定されたパーソナライゼーションや関連性など、繰り返し発生する問題も示している。
- 参考スコア(独自算出の注目度): 1.0262304700896199
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Medical question answering (QA) benchmarks often focus on multiple-choice or fact-based tasks, leaving open-ended answers to real patient questions underexplored. This gap is particularly critical in mental health, where patient questions often mix symptoms, treatment concerns, and emotional needs, requiring answers that balance clinical caution with contextual sensitivity. We present CounselBench, a large-scale benchmark developed with 100 mental health professionals to evaluate and stress-test large language models (LLMs) in realistic help-seeking scenarios. The first component, CounselBench-EVAL, contains 2,000 expert evaluations of answers from GPT-4, LLaMA 3, Gemini, and human therapists on patient questions from the public forum CounselChat. Each answer is rated across six clinically grounded dimensions, with span-level annotations and written rationales. Expert evaluations show that while LLMs achieve high scores on several dimensions, they also exhibit recurring issues, including unconstructive feedback, overgeneralization, and limited personalization or relevance. Responses were frequently flagged for safety risks, most notably unauthorized medical advice. Follow-up experiments show that LLM judges systematically overrate model responses and overlook safety concerns identified by human experts. To probe failure modes more directly, we construct CounselBench-Adv, an adversarial dataset of 120 expert-authored mental health questions designed to trigger specific model issues. Evaluation of 3,240 responses from nine LLMs reveals consistent, model-specific failure patterns. Together, CounselBench establishes a clinically grounded framework for benchmarking LLMs in mental health QA.
- Abstract(参考訳): 医療質問応答(QA)ベンチマークは、しばしば複数の選択や事実に基づくタスクに焦点を当て、未調査の実際の患者にオープンな回答を残します。
このギャップは、患者の質問が症状、治療上の懸念、感情的なニーズを混同し、臨床的な注意と文脈的感受性のバランスを取る必要がある精神保健において特に重要である。
我々は,100人のメンタルヘルス専門家と共同開発した大規模ベンチマークであるCounselBenchを紹介し,現実的なヘルプ検索シナリオにおける大規模言語モデル(LLM)の評価とストレステストを行う。
最初のコンポーネントであるCounselBench-EVALは、公開フォーラムCounselChatの患者に対する質問に対して、GPT-4、LLaMA 3、Gemini、およびヒトセラピストから2000の専門家による回答の評価を含んでいる。
各回答は6つの臨床的根拠のある範囲で評価され、スパンレベルのアノテーションと文章の有理性がある。
専門家による評価では、LLMはいくつかの次元において高いスコアを得る一方で、非建設的フィードバック、過度な一般化、限定されたパーソナライゼーションや関連性など、繰り返し発生する問題も示している。
安全リスク、特に無許可の医療アドバイスに対する反応は、しばしば警告された。
フォローアップ実験は、LLM判事がモデル応答を体系的にオーバーレイし、人間の専門家が特定した安全上の懸念を見落としていることを示している。
より直接的に障害モードを探索するために、特定のモデル問題を引き起こすために設計された120名の専門家によるメンタルヘルス質問の敵対的データセットであるCounselBench-Advを構築した。
9つのLCMから3,240の応答を評価すると、一貫性のあるモデル固有の障害パターンが明らかになる。
CounselBenchは、メンタルヘルスのQAでLSMをベンチマークするための臨床基盤の枠組みを確立した。
関連論文リスト
- Reframe Your Life Story: Interactive Narrative Therapist and Innovative Moment Assessment with Large Language Models [92.93521294357058]
物語療法は、個人が問題のある人生の物語を代替品の力に変えるのに役立つ。
現在のアプローチでは、特殊精神療法ではリアリズムが欠如しており、時間とともに治療の進行を捉えることができない。
Int(Interactive Narrative Therapist)は、治療段階を計画し、反射レベルを誘導し、文脈的に適切な専門家のような反応を生成することによって、専門家の物語セラピストをシミュレートする。
論文 参考訳(メタデータ) (2025-07-27T11:52:09Z) - Automating Expert-Level Medical Reasoning Evaluation of Large Language Models [26.702477426812333]
我々はMedThink-Benchを紹介した。MedThink-Benchは、大規模言語モデルの医学的推論の厳密で説明可能な、スケーラブルな評価のためのベンチマークである。
また, LLM-as-a-Judge 機構と精細な有理性を利用した新しい評価フレームワーク LLM-w-Ref を提案する。
全体として、MedThink-Bench は LLM の医学的推論を評価し、安全で責任ある臨床実践の展開を進めるための基礎的なツールを提供している。
論文 参考訳(メタデータ) (2025-07-10T17:58:26Z) - Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling [57.054489290192535]
伝統的な個人の心理カウンセリングは主にニッチであり、心理学的な問題を持つ個人によって選択されることが多い。
オンラインの自動カウンセリングは、恥の感情によって助けを求めることをためらう人たちに潜在的な解決策を提供する。
論文 参考訳(メタデータ) (2025-01-16T09:57:12Z) - Do Large Language Models Align with Core Mental Health Counseling Competencies? [19.375161727597536]
大規模言語モデル(LLM)は、メンタルヘルス専門家の世界的な不足に対する有望な解決策である。
NCMHCEベースの新しいベンチマークであるCounselingBenchを紹介する。
以上の結果から,コアメンタルヘルスカウンセリング能力と整合した,高度に調整されたモデルの必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-10-29T18:27:11Z) - Interactive Agents: Simulating Counselor-Client Psychological Counseling via Role-Playing LLM-to-LLM Interactions [12.455050661682051]
本稿では,カウンセラーとクライアントの相互作用をシミュレートするためのロールプレイングを通じて,2つの大きな言語モデル(LLM)を利用するフレームワークを提案する。
我々のフレームワークは2つのLCMで構成され、1つは特定の実生活のユーザープロファイルを備えたクライアントとして機能し、もう1つは経験豊富なカウンセラーとして機能する。
論文 参考訳(メタデータ) (2024-08-28T13:29:59Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - Exploring the Efficacy of Large Language Models in Summarizing Mental
Health Counseling Sessions: A Benchmark Study [17.32433545370711]
セッションの包括的な要約は、メンタルヘルスカウンセリングにおいて効果的な継続を可能にする。
手動要約は、専門家の注意をコアカウンセリングプロセスから逸脱させ、重要な課題を呈する。
本研究は、治療セッションの様々な構成要素を選択的に要約する上で、最先端の大規模言語モデル(LLM)の有効性を評価する。
論文 参考訳(メタデータ) (2024-02-29T11:29:47Z) - A Computational Framework for Behavioral Assessment of LLM Therapists [7.665475687919995]
ChatGPTのような大規模言語モデル(LLM)は、精神的な健康問題に対処するためのセラピストとしての使用に対する関心が高まっている。
LLMセラピストの会話行動を体系的に評価するための概念実証フレームワークBOLTを提案する。
論文 参考訳(メタデータ) (2024-01-01T17:32:28Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。