論文の概要: Do Large Language Models Align with Core Mental Health Counseling Competencies?
- arxiv url: http://arxiv.org/abs/2410.22446v1
- Date: Tue, 29 Oct 2024 18:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:28:56.795557
- Title: Do Large Language Models Align with Core Mental Health Counseling Competencies?
- Title(参考訳): コアメンタルヘルスカウンセリング能力に相応しい言語モデルは存在するか?
- Authors: Viet Cuong Nguyen, Mohammad Taher, Dongwan Hong, Vinicius Konkolics Possobom, Vibha Thirunellayi Gopalakrishnan, Ekta Raj, Zihang Li, Heather J. Soled, Michael L. Birnbaum, Srijan Kumar, Munmun De Choudhury,
- Abstract要約: CounselingBenchは、LLM(Large Language Models)を評価する新しいNCMHCEベースのベンチマークである。
フロンティアモデルは最低限の閾値を超えますが、専門家レベルのパフォーマンスには欠けています。
我々の研究結果は、メンタルヘルスカウンセリングのためのAIシステムの開発の複雑さを浮き彫りにした。
- 参考スコア(独自算出の注目度): 19.375161727597536
- License:
- Abstract: The rapid evolution of Large Language Models (LLMs) offers promising potential to alleviate the global scarcity of mental health professionals. However, LLMs' alignment with essential mental health counseling competencies remains understudied. We introduce CounselingBench, a novel NCMHCE-based benchmark evaluating LLMs across five key mental health counseling competencies. Testing 22 general-purpose and medical-finetuned LLMs, we find frontier models exceed minimum thresholds but fall short of expert-level performance, with significant variations: they excel in Intake, Assessment & Diagnosis yet struggle with Core Counseling Attributes and Professional Practice & Ethics. Medical LLMs surprisingly underperform generalist models accuracy-wise, while at the same time producing slightly higher-quality justifications but making more context-related errors. Our findings highlight the complexities of developing AI systems for mental health counseling, particularly for competencies requiring empathy and contextual understanding. We found that frontier LLMs perform at a level exceeding the minimal required level of aptitude for all key mental health counseling competencies, but fall short of expert-level performance, and that current medical LLMs do not significantly improve upon generalist models in mental health counseling competencies. This underscores the critical need for specialized, mental health counseling-specific fine-tuned LLMs that rigorously aligns with core competencies combined with appropriate human supervision before any responsible real-world deployment can be considered.
- Abstract(参考訳): LLM(Large Language Models)の急速な進化は、メンタルヘルス専門家の世界的な不足を緩和する有望な可能性をもたらす。
しかし、LSMと心的健康カウンセリング能力との整合性はいまだ検討されていない。
我々は,5つの主要なメンタルヘルスカウンセリング能力にまたがるLSMを評価する新しいNCMHCEベースのベンチマークであるCounselingBenchを紹介する。
22の汎用的かつ医療的なLLMをテストすると、フロンティアモデルは最低限の閾値を超えますが、専門家レベルのパフォーマンスには欠けています。
医療用LLMは、驚くほど精度的にジェネラリストモデルに劣り、同時に若干の高品質な正当性を生み出す一方で、よりコンテキスト関連のエラーを発生させる。
我々の研究は、メンタルヘルスカウンセリングのためのAIシステムの開発の複雑さ、特に共感と文脈理解を必要とする能力の複雑さを浮き彫りにした。
その結果、フロンティアLSMは、すべての主要なメンタルヘルスカウンセリング能力に必要最低限の適度を越えながら、専門家レベルの能力に欠けており、現在の医療LLMは、メンタルヘルスカウンセリング能力におけるジェネラリストモデルに大きく改善されないことがわかった。
このことは、特定のメンタルヘルスカウンセリングに特化した微調整されたLSMが、責任ある現実世界の展開を検討する前に、適切な人間の監督とコア能力と厳格に整合する必要性を浮き彫りにしている。
関連論文リスト
- SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [122.04298386571692]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy [67.23830698947637]
認知行動療法(CBT)支援の体系的評価のための新しいベンチマークであるCBT-BENCHを提案する。
我々は, CBT-BENCHにおける3段階の課題を含む: I: 基本的CBT知識獲得, 複数選択質問のタスク; II: 認知的モデル理解, 認知的歪み分類, 主根的信念分類, きめ細かい中核信念分類のタスク; III: 治療的応答生成, CBTセラピーセッションにおける患者音声に対する応答生成のタスク。
実験結果から,LLMはCBT知識のリサイティングに優れるが,複雑な実世界のシナリオでは不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-17T04:52:57Z) - MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison Feedback [6.681247642186701]
医療事例を高品質なUSMLEスタイルの質問に変換する枠組みを提案する。
MCQG-SRefineは、専門家主導のプロンプトエンジニアリングと反復的な自己批判と自己補正フィードバックを統合している。
複雑でコストのかかる専門家評価プロセスを置き換えるため, LLM-as-Judge を用いた自動計測手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T03:38:29Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - Large Language Model for Mental Health: A Systematic Review [2.9429776664692526]
大規模言語モデル(LLM)は、デジタルヘルスの潜在的な応用に対して大きな注目を集めている。
この体系的なレビューは、早期スクリーニング、デジタル介入、臨床応用におけるその強みと限界に焦点を当てている。
論文 参考訳(メタデータ) (2024-02-19T17:58:41Z) - A Computational Framework for Behavioral Assessment of LLM Therapists [7.665475687919995]
ChatGPTのような大規模言語モデル(LLM)は、精神的な健康問題に対処するためのセラピストとしての使用に対する関心が高まっている。
LLMセラピストの会話行動を体系的に評価するための概念実証フレームワークBOLTを提案する。
論文 参考訳(メタデータ) (2024-01-01T17:32:28Z) - Challenges of Large Language Models for Mental Health Counseling [4.604003661048267]
世界のメンタルヘルス危機は、精神疾患の急速な増加、限られた資源、治療を求める社会的便宜によって悪化している。
メンタルヘルス領域における大規模言語モデル(LLM)の適用は、提供された情報の正確性、有効性、信頼性に関する懸念を提起する。
本稿では, モデル幻覚, 解釈可能性, バイアス, プライバシ, 臨床効果など, 心理カウンセリングのためのLSMの開発に伴う課題について検討する。
論文 参考訳(メタデータ) (2023-11-23T08:56:41Z) - Rethinking Large Language Models in Mental Health Applications [42.21805311812548]
大規模言語モデル(LLM)は、メンタルヘルスにおいて貴重な資産となっている。
本稿では,精神保健分野におけるLSMの利用について考察する。
論文 参考訳(メタデータ) (2023-11-19T08:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。