論文の概要: Do Large Language Models Align with Core Mental Health Counseling Competencies?
- arxiv url: http://arxiv.org/abs/2410.22446v1
- Date: Tue, 29 Oct 2024 18:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:28:56.795557
- Title: Do Large Language Models Align with Core Mental Health Counseling Competencies?
- Title(参考訳): コアメンタルヘルスカウンセリング能力に相応しい言語モデルは存在するか?
- Authors: Viet Cuong Nguyen, Mohammad Taher, Dongwan Hong, Vinicius Konkolics Possobom, Vibha Thirunellayi Gopalakrishnan, Ekta Raj, Zihang Li, Heather J. Soled, Michael L. Birnbaum, Srijan Kumar, Munmun De Choudhury,
- Abstract要約: CounselingBenchは、LLM(Large Language Models)を評価する新しいNCMHCEベースのベンチマークである。
フロンティアモデルは最低限の閾値を超えますが、専門家レベルのパフォーマンスには欠けています。
我々の研究結果は、メンタルヘルスカウンセリングのためのAIシステムの開発の複雑さを浮き彫りにした。
- 参考スコア(独自算出の注目度): 19.375161727597536
- License:
- Abstract: The rapid evolution of Large Language Models (LLMs) offers promising potential to alleviate the global scarcity of mental health professionals. However, LLMs' alignment with essential mental health counseling competencies remains understudied. We introduce CounselingBench, a novel NCMHCE-based benchmark evaluating LLMs across five key mental health counseling competencies. Testing 22 general-purpose and medical-finetuned LLMs, we find frontier models exceed minimum thresholds but fall short of expert-level performance, with significant variations: they excel in Intake, Assessment & Diagnosis yet struggle with Core Counseling Attributes and Professional Practice & Ethics. Medical LLMs surprisingly underperform generalist models accuracy-wise, while at the same time producing slightly higher-quality justifications but making more context-related errors. Our findings highlight the complexities of developing AI systems for mental health counseling, particularly for competencies requiring empathy and contextual understanding. We found that frontier LLMs perform at a level exceeding the minimal required level of aptitude for all key mental health counseling competencies, but fall short of expert-level performance, and that current medical LLMs do not significantly improve upon generalist models in mental health counseling competencies. This underscores the critical need for specialized, mental health counseling-specific fine-tuned LLMs that rigorously aligns with core competencies combined with appropriate human supervision before any responsible real-world deployment can be considered.
- Abstract(参考訳): LLM(Large Language Models)の急速な進化は、メンタルヘルス専門家の世界的な不足を緩和する有望な可能性をもたらす。
しかし、LSMと心的健康カウンセリング能力との整合性はいまだ検討されていない。
我々は,5つの主要なメンタルヘルスカウンセリング能力にまたがるLSMを評価する新しいNCMHCEベースのベンチマークであるCounselingBenchを紹介する。
22の汎用的かつ医療的なLLMをテストすると、フロンティアモデルは最低限の閾値を超えますが、専門家レベルのパフォーマンスには欠けています。
医療用LLMは、驚くほど精度的にジェネラリストモデルに劣り、同時に若干の高品質な正当性を生み出す一方で、よりコンテキスト関連のエラーを発生させる。
我々の研究は、メンタルヘルスカウンセリングのためのAIシステムの開発の複雑さ、特に共感と文脈理解を必要とする能力の複雑さを浮き彫りにした。
その結果、フロンティアLSMは、すべての主要なメンタルヘルスカウンセリング能力に必要最低限の適度を越えながら、専門家レベルの能力に欠けており、現在の医療LLMは、メンタルヘルスカウンセリング能力におけるジェネラリストモデルに大きく改善されないことがわかった。
このことは、特定のメンタルヘルスカウンセリングに特化した微調整されたLSMが、責任ある現実世界の展開を検討する前に、適切な人間の監督とコア能力と厳格に整合する必要性を浮き彫りにしている。
関連論文リスト
- Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy [67.23830698947637]
認知行動療法(CBT)支援の体系的評価のための新しいベンチマークであるCBT-BENCHを提案する。
我々は, CBT-BENCHにおける3段階の課題を含む: I: 基本的CBT知識獲得, 複数選択質問のタスク; II: 認知的モデル理解, 認知的歪み分類, 主根的信念分類, きめ細かい中核信念分類のタスク; III: 治療的応答生成, CBTセラピーセッションにおける患者音声に対する応答生成のタスク。
実験結果から,LLMはCBT知識のリサイティングに優れるが,複雑な実世界のシナリオでは不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-17T04:52:57Z) - MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison Feedback [6.681247642186701]
医療事例を高品質なUSMLEスタイルの質問に変換する枠組みを提案する。
MCQG-SRefineは、専門家主導のプロンプトエンジニアリングと反復的な自己批判と自己補正フィードバックを統合している。
複雑でコストのかかる専門家評価プロセスを置き換えるため, LLM-as-Judge を用いた自動計測手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T03:38:29Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - The Impossibility of Fair LLMs [59.424918263776284]
大規模言語モデル(LLM)の時代において、公正なAIの必要性はますます明確になっている。
我々は、機械学習研究者が公正性を評価するために使った技術フレームワークについてレビューする。
我々は、特定のユースケースにおける公平性を達成するためのより現実的な目標のためのガイドラインを策定する。
論文 参考訳(メタデータ) (2024-05-28T04:36:15Z) - Large Language Model for Mental Health: A Systematic Review [2.9429776664692526]
大規模言語モデル(LLM)は、デジタルヘルスの潜在的な応用に対して大きな注目を集めている。
この体系的なレビューは、早期スクリーニング、デジタル介入、臨床応用におけるその強みと限界に焦点を当てている。
論文 参考訳(メタデータ) (2024-02-19T17:58:41Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - A Computational Framework for Behavioral Assessment of LLM Therapists [8.373981505033864]
ChatGPTや他の大規模言語モデル(LLM)は、LLMをセラピストとして活用することへの関心を大いに高めた。
本稿では,セラピストとしてLLMの会話行動を研究するための新しい計算フレームワークBOLTを提案する。
我々は, LLM療法士の行動と, 高品質な人的療法の行動を比較し, 高品質な治療で観察される行動をよりよく反映するために, それらの行動をどのように調節するかを検討した。
論文 参考訳(メタデータ) (2024-01-01T17:32:28Z) - Challenges of Large Language Models for Mental Health Counseling [4.604003661048267]
世界のメンタルヘルス危機は、精神疾患の急速な増加、限られた資源、治療を求める社会的便宜によって悪化している。
メンタルヘルス領域における大規模言語モデル(LLM)の適用は、提供された情報の正確性、有効性、信頼性に関する懸念を提起する。
本稿では, モデル幻覚, 解釈可能性, バイアス, プライバシ, 臨床効果など, 心理カウンセリングのためのLSMの開発に伴う課題について検討する。
論文 参考訳(メタデータ) (2023-11-23T08:56:41Z) - Rethinking Large Language Models in Mental Health Applications [42.21805311812548]
大規模言語モデル(LLM)は、メンタルヘルスにおいて貴重な資産となっている。
本稿では,精神保健分野におけるLSMの利用について考察する。
論文 参考訳(メタデータ) (2023-11-19T08:40:01Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。
我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。