論文の概要: Do Large Language Models Align with Core Mental Health Counseling Competencies?
- arxiv url: http://arxiv.org/abs/2410.22446v2
- Date: Wed, 26 Feb 2025 21:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:55:01.414493
- Title: Do Large Language Models Align with Core Mental Health Counseling Competencies?
- Title(参考訳): コアメンタルヘルスカウンセリング能力に相応しい言語モデルは存在するか?
- Authors: Viet Cuong Nguyen, Mohammad Taher, Dongwan Hong, Vinicius Konkolics Possobom, Vibha Thirunellayi Gopalakrishnan, Ekta Raj, Zihang Li, Heather J. Soled, Michael L. Birnbaum, Srijan Kumar, Munmun De Choudhury,
- Abstract要約: 大規模言語モデル(LLM)は、メンタルヘルス専門家の世界的な不足に対する有望な解決策である。
NCMHCEベースの新しいベンチマークであるCounselingBenchを紹介する。
以上の結果から,コアメンタルヘルスカウンセリング能力と整合した,高度に調整されたモデルの必要性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 19.375161727597536
- License:
- Abstract: The rapid evolution of Large Language Models (LLMs) presents a promising solution to the global shortage of mental health professionals. However, their alignment with essential counseling competencies remains underexplored. We introduce CounselingBench, a novel NCMHCE-based benchmark evaluating 22 general-purpose and medical-finetuned LLMs across five key competencies. While frontier models surpass minimum aptitude thresholds, they fall short of expert-level performance, excelling in Intake, Assessment & Diagnosis but struggling with Core Counseling Attributes and Professional Practice & Ethics. Surprisingly, medical LLMs do not outperform generalist models in accuracy, though they provide slightly better justifications while making more context-related errors. These findings highlight the challenges of developing AI for mental health counseling, particularly in competencies requiring empathy and nuanced reasoning. Our results underscore the need for specialized, fine-tuned models aligned with core mental health counseling competencies and supported by human oversight before real-world deployment. Code and data associated with this manuscript can be found at: https://github.com/cuongnguyenx/CounselingBench
- Abstract(参考訳): LLM(Large Language Models)の急速な進化は、メンタルヘルス専門家の世界的な不足に対する有望な解決策である。
しかし、本質的なカウンセリング能力との整合性は未解明のままである。
我々は,新しいNCMHCEベースのベンチマークであるCounselingBenchを紹介する。
フロンティアモデルは最低適性しきい値を超えているが、専門家レベルのパフォーマンスには欠けており、摂取、評価、診断に優れるが、Core Counseling AttributesやProfessional Practice & Ethicsでは苦労している。
驚くべきことに、医療用LLMは一般的なモデルよりも精度が優れているわけではない。
これらの知見は、特に共感とニュアンスド推論を必要とする能力において、メンタルヘルスカウンセリングのためのAIを開発する際の課題を浮き彫りにしている。
本研究の結果は,心的健康カウンセリング能力に則り,実世界展開前の人間の監視に支えられた,高度に調整された専門モデルの必要性を浮き彫りにした。
https://github.com/cuongnguyenx/CounselingBench
関連論文リスト
- SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [122.04298386571692]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy [67.23830698947637]
認知行動療法(CBT)支援の体系的評価のための新しいベンチマークであるCBT-BENCHを提案する。
我々は, CBT-BENCHにおける3段階の課題を含む: I: 基本的CBT知識獲得, 複数選択質問のタスク; II: 認知的モデル理解, 認知的歪み分類, 主根的信念分類, きめ細かい中核信念分類のタスク; III: 治療的応答生成, CBTセラピーセッションにおける患者音声に対する応答生成のタスク。
実験結果から,LLMはCBT知識のリサイティングに優れるが,複雑な実世界のシナリオでは不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-17T04:52:57Z) - MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison Feedback [6.681247642186701]
医療事例を高品質なUSMLEスタイルの質問に変換する枠組みを提案する。
MCQG-SRefineは、専門家主導のプロンプトエンジニアリングと反復的な自己批判と自己補正フィードバックを統合している。
複雑でコストのかかる専門家評価プロセスを置き換えるため, LLM-as-Judge を用いた自動計測手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T03:38:29Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - Large Language Model for Mental Health: A Systematic Review [2.9429776664692526]
大規模言語モデル(LLM)は、デジタルヘルスの潜在的な応用に対して大きな注目を集めている。
この体系的なレビューは、早期スクリーニング、デジタル介入、臨床応用におけるその強みと限界に焦点を当てている。
論文 参考訳(メタデータ) (2024-02-19T17:58:41Z) - A Computational Framework for Behavioral Assessment of LLM Therapists [7.665475687919995]
ChatGPTのような大規模言語モデル(LLM)は、精神的な健康問題に対処するためのセラピストとしての使用に対する関心が高まっている。
LLMセラピストの会話行動を体系的に評価するための概念実証フレームワークBOLTを提案する。
論文 参考訳(メタデータ) (2024-01-01T17:32:28Z) - Challenges of Large Language Models for Mental Health Counseling [4.604003661048267]
世界のメンタルヘルス危機は、精神疾患の急速な増加、限られた資源、治療を求める社会的便宜によって悪化している。
メンタルヘルス領域における大規模言語モデル(LLM)の適用は、提供された情報の正確性、有効性、信頼性に関する懸念を提起する。
本稿では, モデル幻覚, 解釈可能性, バイアス, プライバシ, 臨床効果など, 心理カウンセリングのためのLSMの開発に伴う課題について検討する。
論文 参考訳(メタデータ) (2023-11-23T08:56:41Z) - Rethinking Large Language Models in Mental Health Applications [42.21805311812548]
大規模言語モデル(LLM)は、メンタルヘルスにおいて貴重な資産となっている。
本稿では,精神保健分野におけるLSMの利用について考察する。
論文 参考訳(メタデータ) (2023-11-19T08:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。