Fugu-MT 論文翻訳(概要): Do Large Language Models Align with Core Mental Health Counseling Competencies?

論文の概要: Do Large Language Models Align with Core Mental Health Counseling Competencies?

arxiv url: http://arxiv.org/abs/2410.22446v2
Date: Wed, 26 Feb 2025 21:37:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.233036
Title: Do Large Language Models Align with Core Mental Health Counseling Competencies?
Title（参考訳）: コアメンタルヘルスカウンセリング能力に相応しい言語モデルは存在するか?
Authors: Viet Cuong Nguyen, Mohammad Taher, Dongwan Hong, Vinicius Konkolics Possobom, Vibha Thirunellayi Gopalakrishnan, Ekta Raj, Zihang Li, Heather J. Soled, Michael L. Birnbaum, Srijan Kumar, Munmun De Choudhury,
Abstract要約: 大規模言語モデル(LLM)は、メンタルヘルス専門家の世界的な不足に対する有望な解決策である。 NCMHCEベースの新しいベンチマークであるCounselingBenchを紹介する。以上の結果から,コアメンタルヘルスカウンセリング能力と整合した,高度に調整されたモデルの必要性が浮き彫りになった。
参考スコア（独自算出の注目度）: 19.375161727597536
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The rapid evolution of Large Language Models (LLMs) presents a promising solution to the global shortage of mental health professionals. However, their alignment with essential counseling competencies remains underexplored. We introduce CounselingBench, a novel NCMHCE-based benchmark evaluating 22 general-purpose and medical-finetuned LLMs across five key competencies. While frontier models surpass minimum aptitude thresholds, they fall short of expert-level performance, excelling in Intake, Assessment & Diagnosis but struggling with Core Counseling Attributes and Professional Practice & Ethics. Surprisingly, medical LLMs do not outperform generalist models in accuracy, though they provide slightly better justifications while making more context-related errors. These findings highlight the challenges of developing AI for mental health counseling, particularly in competencies requiring empathy and nuanced reasoning. Our results underscore the need for specialized, fine-tuned models aligned with core mental health counseling competencies and supported by human oversight before real-world deployment. Code and data associated with this manuscript can be found at: https://github.com/cuongnguyenx/CounselingBench
Abstract（参考訳）: LLM(Large Language Models)の急速な進化は、メンタルヘルス専門家の世界的な不足に対する有望な解決策である。しかし、本質的なカウンセリング能力との整合性は未解明のままである。我々は,新しいNCMHCEベースのベンチマークであるCounselingBenchを紹介する。フロンティアモデルは最低適性しきい値を超えているが、専門家レベルのパフォーマンスには欠けており、摂取、評価、診断に優れるが、Core Counseling AttributesやProfessional Practice & Ethicsでは苦労している。驚くべきことに、医療用LLMは一般的なモデルよりも精度が優れているわけではない。これらの知見は、特に共感とニュアンスド推論を必要とする能力において、メンタルヘルスカウンセリングのためのAIを開発する際の課題を浮き彫りにしている。本研究の結果は,心的健康カウンセリング能力に則り,実世界展開前の人間の監視に支えられた,高度に調整された専門モデルの必要性を浮き彫りにした。 https://github.com/cuongnguyenx/CounselingBench

関連論文リスト

Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文参考訳（メタデータ） (2025-06-13T16:29:09Z)
CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmark of Large Language Models in Mental Health Counseling [0.6597195879147557]
大規模言語モデル(LLM)は、メンタルヘルスサポートのためにますます提案されているが、現実的なカウンセリングシナリオにおけるそれらの振る舞いは、ほとんどテストされていない。コウンセルベンチ(CounselBench)は、100人のメンタルヘルス専門家と共同で開発され、シングルターンカウンセリングにおけるLLMの評価とストレステストを行う大規模ベンチマークである。
論文参考訳（メタデータ） (2025-06-10T08:53:06Z)
The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。 AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文参考訳（メタデータ） (2025-05-17T07:44:54Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文参考訳（メタデータ） (2024-10-24T15:41:56Z)
CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy [67.23830698947637]
認知行動療法(CBT)支援の体系的評価のための新しいベンチマークであるCBT-BENCHを提案する。我々は, CBT-BENCHにおける3段階の課題を含む: I: 基本的CBT知識獲得, 複数選択質問のタスク; II: 認知的モデル理解, 認知的歪み分類, 主根的信念分類, きめ細かい中核信念分類のタスク; III: 治療的応答生成, CBTセラピーセッションにおける患者音声に対する応答生成のタスク。実験結果から,LLMはCBT知識のリサイティングに優れるが,複雑な実世界のシナリオでは不十分であることが示唆された。
論文参考訳（メタデータ） (2024-10-17T04:52:57Z)
MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison Feedback [6.681247642186701]
医療事例を高品質なUSMLEスタイルの質問に変換する枠組みを提案する。 MCQG-SRefineは、専門家主導のプロンプトエンジニアリングと反復的な自己批判と自己補正フィードバックを統合している。複雑でコストのかかる専門家評価プロセスを置き換えるため, LLM-as-Judge を用いた自動計測手法を提案する。
論文参考訳（メタデータ） (2024-10-17T03:38:29Z)
MentalGLM Series: Explainable Large Language Models for Mental Health Analysis on Chinese Social Media [31.752563319585196]
ブラックボックスモデルはタスクを切り替えるときに柔軟性がなく、その結果は説明に欠ける。大きな言語モデル(LLM)の台頭とともに、その柔軟性はこの分野に新しいアプローチを導入した。本稿では,9Kサンプルからなる中国初のマルチタスク・ソーシャル・メディア解釈型メンタルヘルス・インストラクション・データセットを提案する。また,中国ソーシャルメディアをターゲットとしたメンタルヘルス分析を目的とした,初のオープンソースLCMであるMentalGLMシリーズモデルを提案する。
論文参考訳（メタデータ） (2024-10-14T09:29:27Z)
MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders [59.515827458631975]
メンタルヘルス障害は世界で最も深刻な病気の1つである。プライバシーに関する懸念は、パーソナライズされた治療データのアクセシビリティを制限する。 MentalArenaは、言語モデルをトレーニングするためのセルフプレイフレームワークである。
論文参考訳（メタデータ） (2024-10-09T13:06:40Z)
Evaluation of OpenAI o1: Opportunities and Challenges of AGI [112.0812059747033]
o1-previewは目覚ましい能力を示し、しばしば人間レベルまたは優れたパフォーマンスを実現した。このモデルは、様々な分野にわたる複雑な推論と知識の統合を必要とするタスクに優れていた。総合的な結果は、人工知能への大きな進歩を示している。
論文参考訳（メタデータ） (2024-09-27T06:57:00Z)
RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。実験の結果,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-08-22T17:44:40Z)
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文参考訳（メタデータ） (2024-06-18T16:20:53Z)
The Impossibility of Fair LLMs [59.424918263776284]
大規模言語モデル(LLM)の時代において、公正なAIの必要性はますます明確になっている。我々は、機械学習研究者が公正性を評価するために使った技術フレームワークについてレビューする。我々は、特定のユースケースにおける公平性を達成するためのより現実的な目標のためのガイドラインを策定する。
論文参考訳（メタデータ） (2024-05-28T04:36:15Z)
OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。 GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文参考訳（メタデータ） (2024-02-21T18:49:26Z)
Large Language Model for Mental Health: A Systematic Review [2.9429776664692526]
大規模言語モデル(LLM)は、デジタルヘルスの潜在的な応用に対して大きな注目を集めている。この体系的なレビューは、早期スクリーニング、デジタル介入、臨床応用におけるその強みと限界に焦点を当てている。
論文参考訳（メタデータ） (2024-02-19T17:58:41Z)
Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。 Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
Large Language Models in Mental Health Care: a Scoping Review [28.635427491110484]
メンタルヘルスにおける大規模言語モデル(LLM)の統合は、新たな分野である。アプリケーションの結果を体系的にレビューし、臨床設定の利点と限界を明確にすることが必要である。本総説は、精神医療におけるLSMの使用について、その効果、課題、将来的な応用の可能性について、総合的に概観することを目的としている。
論文参考訳（メタデータ） (2024-01-01T17:35:52Z)
A Computational Framework for Behavioral Assessment of LLM Therapists [8.373981505033864]
ChatGPTや他の大規模言語モデル(LLM)は、LLMをセラピストとして活用することへの関心を大いに高めた。本稿では,セラピストとしてLLMの会話行動を研究するための新しい計算フレームワークBOLTを提案する。我々は, LLM療法士の行動と, 高品質な人的療法の行動を比較し, 高品質な治療で観察される行動をよりよく反映するために, それらの行動をどのように調節するかを検討した。
論文参考訳（メタデータ） (2024-01-01T17:32:28Z)
Challenges of Large Language Models for Mental Health Counseling [4.604003661048267]
世界のメンタルヘルス危機は、精神疾患の急速な増加、限られた資源、治療を求める社会的便宜によって悪化している。メンタルヘルス領域における大規模言語モデル(LLM)の適用は、提供された情報の正確性、有効性、信頼性に関する懸念を提起する。本稿では, モデル幻覚, 解釈可能性, バイアス, プライバシ, 臨床効果など, 心理カウンセリングのためのLSMの開発に伴う課題について検討する。
論文参考訳（メタデータ） (2023-11-23T08:56:41Z)
Rethinking Large Language Models in Mental Health Applications [42.21805311812548]
大規模言語モデル(LLM)は、メンタルヘルスにおいて貴重な資産となっている。本稿では,精神保健分野におけるLSMの利用について考察する。
論文参考訳（メタデータ） (2023-11-19T08:40:01Z)
ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。 ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文参考訳（メタデータ） (2023-11-10T12:25:32Z)
MentaLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models [28.62967557368565]
ソーシャルメディア上に,最初のマルチタスクおよびマルチソース解釈可能なメンタルヘルスインストラクションデータセットを構築した。専門家が作成した数発のプロンプトとラベルを収集し,ChatGPTをプロンプトし,その応答から説明を得る。 IMHIデータセットとLLaMA2ファンデーションモデルに基づいて、メンタルヘルス分析のための最初のオープンソースLLMシリーズであるMentalLLaMAを訓練する。
論文参考訳（メタデータ） (2023-09-24T06:46:08Z)
Psy-LLM: Scaling up Global Mental Health Psychological Services with AI-based Large Language Models [3.650517404744655]
Psy-LLMフレームワークは、大規模言語モデルを利用したAIベースのツールである。我々のフレームワークは、トレーニング済みのLLMと心理学者や広範囲にクロールされた心理学記事の現実のプロフェッショナルQ&Aを組み合わせる。医療専門家のためのフロントエンドツールとして機能し、即時対応とマインドフルネス活動を提供して患者のストレスを軽減する。
論文参考訳（メタデータ） (2023-07-22T06:21:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。