論文の概要: PsyEval: A Suite of Mental Health Related Tasks for Evaluating Large Language Models
- arxiv url: http://arxiv.org/abs/2311.09189v2
- Date: Mon, 3 Jun 2024 08:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 20:21:27.524693
- Title: PsyEval: A Suite of Mental Health Related Tasks for Evaluating Large Language Models
- Title(参考訳): PsyEval: 大規模言語モデル評価のためのメンタルヘルス関連タスクスイート
- Authors: Haoan Jin, Siyuan Chen, Dilawaier Dilixiati, Yewei Jiang, Mengyue Wu, Kenny Q. Zhu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を評価するためのメンタルヘルス関連タスクの包括的スイートであるPsyEvalについて述べる。
この包括的枠組みは、メンタルヘルス関連のタスクの独特な課題と複雑さを徹底的に評価するために設計されている。
- 参考スコア(独自算出の注目度): 34.09419351705938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating Large Language Models (LLMs) in the mental health domain poses distinct challenged from other domains, given the subtle and highly subjective nature of symptoms that exhibit significant variability among individuals. This paper presents PsyEval, the first comprehensive suite of mental health-related tasks for evaluating LLMs. PsyEval encompasses five sub-tasks that evaluate three critical dimensions of mental health. This comprehensive framework is designed to thoroughly assess the unique challenges and intricacies of mental health-related tasks, making PsyEval a highly specialized and valuable tool for evaluating LLM performance in this domain. We evaluate twelve advanced LLMs using PsyEval. Experiment results not only demonstrate significant room for improvement in current LLMs concerning mental health but also unveil potential directions for future model optimization.
- Abstract(参考訳): 精神保健領域における大規模言語モデル(LLM)の評価は、個人間で有意な変動を示す症状の微妙で非常に主観的な性質を考えると、他の領域と異なる課題を生じさせる。
本稿では、LSMを評価するためのメンタルヘルス関連タスクの総合的なスイートであるPsyEvalについて述べる。
PsyEvalは、メンタルヘルスの3つの重要な次元を評価する5つのサブタスクを含んでいる。
この包括的なフレームワークは、メンタルヘルス関連のタスクの固有の課題と複雑さを徹底的に評価するために設計されており、PsyEvalはこの領域でLLMのパフォーマンスを評価するための非常に専門的で価値のあるツールである。
PsyEvalを用いて12種類の高度なLCMを評価した。
実験の結果は、精神保健に関する現在のLCMの改善のための重要な余地を示すだけでなく、将来のモデル最適化のための潜在的方向性も示している。
関連論文リスト
- Is your LLM trapped in a Mental Set? Investigative study on how mental sets affect the reasoning capabilities of LLMs [8.920202114368843]
本稿では,心的セットがLLMの推論能力に与える影響について検討する。
メンタル・セット(Mental Sets)とは、以前成功していた戦略が非効率になったとしても継続する傾向を指す。
Llama-3.1-8B-インストラクト、Llama-3.1-70B-インストラクト、GPT-4oのようなメンタルセットの存在下でのLLMモデルの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T02:29:15Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - PsycoLLM: Enhancing LLM for Psychological Understanding and Evaluation [32.40846713004979]
PsycoLLMは、提案された高品質な心理的データセットに基づいて訓練されている。
このプロセスは、オンラインプラットフォームから抽出された現実世界の心理的背景によって強化される。
中国における信頼性心理学的カウンセリング試験に基づく総合心理学的ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-07-08T08:25:56Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - Exploring the Efficacy of Large Language Models in Summarizing Mental
Health Counseling Sessions: A Benchmark Study [17.32433545370711]
セッションの包括的な要約は、メンタルヘルスカウンセリングにおいて効果的な継続を可能にする。
手動要約は、専門家の注意をコアカウンセリングプロセスから逸脱させ、重要な課題を呈する。
本研究は、治療セッションの様々な構成要素を選択的に要約する上で、最先端の大規模言語モデル(LLM)の有効性を評価する。
論文 参考訳(メタデータ) (2024-02-29T11:29:47Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Mental-LLM: Leveraging Large Language Models for Mental Health
Prediction via Online Text Data [42.965788205842465]
本稿では,様々なメンタルヘルス予測タスクにおける多言語モデル(LLM)の包括的評価について述べる。
ゼロショットプロンプト、少数ショットプロンプト、微調整を含む実験を行う。
我々の最も精巧なモデルであるMental-AlpacaとMental-FLAN-T5は、バランスの取れた精度でGPT-3.5を10.9%上回り、GPT-4(250倍、150倍)を4.8%上回りました。
論文 参考訳(メタデータ) (2023-07-26T06:00:50Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Towards Interpretable Mental Health Analysis with Large Language Models [27.776003210275608]
大規模言語モデル(LLM)のメンタルヘルス分析と感情的推論能力は,5つのタスクにまたがる11のデータセット上で評価した。
本研究は, 精神保健分析のためのLCMについて, それぞれの意思決定に関する説明を提示するように指示することで, 解釈可能な精神保健分析を行う。
得られた説明の質を評価するために、厳密な人的評価を伝達し、163の人的評価による新しいデータセットを作成する。
論文 参考訳(メタデータ) (2023-04-06T19:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。