Fugu-MT 論文翻訳(概要): PsyEval: A Comprehensive Large Language Model Evaluation Benchmark for Mental Health

論文の概要: PsyEval: A Comprehensive Large Language Model Evaluation Benchmark for Mental Health

arxiv url: http://arxiv.org/abs/2311.09189v1
Date: Wed, 15 Nov 2023 18:32:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 14:41:08.079373
Title: PsyEval: A Comprehensive Large Language Model Evaluation Benchmark for Mental Health
Title（参考訳）: PsyEval: メンタルヘルスのための総合的な大規模言語モデル評価ベンチマーク
Authors: Haoan Jin, Siyuan Chen, Mengyue Wu, Kenny Q. Zhu
Abstract要約: メンタルヘルス領域の特徴に合わせた,最初の総合的なベンチマークを紹介する。このベンチマークは、合計6つのサブタスクを含み、3次元をカバーする。我々は,ベンチマークを用いて,合計8つの高度なLCMを総合的に評価した。
参考スコア（独自算出の注目度）: 42.34080498780955
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, there has been a growing interest in utilizing large language models (LLMs) in mental health research, with studies showcasing their remarkable capabilities, such as disease detection. However, there is currently a lack of a comprehensive benchmark for evaluating the capability of LLMs in this domain. Therefore, we address this gap by introducing the first comprehensive benchmark tailored to the unique characteristics of the mental health domain. This benchmark encompasses a total of six sub-tasks, covering three dimensions, to systematically assess the capabilities of LLMs in the realm of mental health. We have designed corresponding concise prompts for each sub-task. And we comprehensively evaluate a total of eight advanced LLMs using our benchmark. Experiment results not only demonstrate significant room for improvement in current LLMs concerning mental health but also unveil potential directions for future model optimization.
Abstract（参考訳）: 近年,精神保健研究における大規模言語モデル(LLM)の利用に対する関心が高まっており,疾患検出などの顕著な能力を示す研究が行われている。しかし、現時点では、この領域でLLMの能力を評価するための包括的なベンチマークがない。そこで本研究では,メンタルヘルス領域の特徴に合わせた,最初の総合的なベンチマークを導入することで,このギャップに対処する。このベンチマークは、メンタルヘルスの領域におけるLSMの能力を体系的に評価するために、3次元をカバーする合計6つのサブタスクを含んでいる。サブタスクごとに対応する簡潔なプロンプトを設計した。また,このベンチマークを用いて,合計8つの高度なLCMを総合的に評価した。実験の結果、メンタルヘルスに関する現在のllmの改善の余地が明らかになるだけでなく、将来のモデル最適化の可能性も明らかにされた。

関連論文リスト

Reasoning Is Not All You Need: Examining LLMs for Multi-Turn Mental Health Conversations [13.064927179032756]
MedAgentは、現実的で多ターンのメンタルヘルス・センスメイキングの会話を合成的に生成する新しいフレームワークである。医療環境におけるLLMのマルチターン会話能力を評価するための総合的フレームワークであるMultiSenseEvalを提案する。
論文参考訳（メタデータ） (2025-05-26T16:42:02Z)
ProMind-LLM: Proactive Mental Health Care via Causal Reasoning with Sensor Data [5.961343130822046]
メンタルヘルスのリスクは、世界の公衆衛生にとって重要な課題である。大規模言語モデル(LLMs)の開発により、それらは説明可能な精神医療応用のための有望なツールであることが注目されている。本稿では、主観的心的記録と相補的な情報として客観的行動データを統合する革新的なアプローチであるProMind-LLMを紹介する。
論文参考訳（メタデータ） (2025-05-20T07:36:28Z)
Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。 8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文参考訳（メタデータ） (2025-05-06T08:22:51Z)
Humanizing LLMs: A Survey of Psychological Measurements with Tools, Datasets, and Human-Agent Applications [25.38031971196831]
大規模言語モデル(LLM)は、人間中心のタスクでますます使われるようになっている。彼らの心理的特徴を評価することは、彼らの社会的影響を理解し、信頼できるAIアライメントを確保するために不可欠である。本研究は,LLMのより解釈しやすく,堅牢で,一般化可能な心理的アセスメントフレームワークを開発するための今後の方向性を提案することを目的とする。
論文参考訳（メタデータ） (2025-04-30T06:09:40Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
PsychBench: A comprehensive and professional benchmark for evaluating the performance of LLM-assisted psychiatric clinical practice [20.166682569070073]
LLM(Large Language Models)は、医療資源の不足や精神科臨床における診断整合性の低下といった問題に対処するための潜在的な解決策を提供する。精神科臨床現場における LLM の実用性を評価するためのベンチマークシステム PsychBench を提案する。既存のモデルは大きな可能性を秘めているが,精神科臨床における意思決定ツールとしてはまだ不十分である。
論文参考訳（メタデータ） (2025-02-28T12:17:41Z)
Is your LLM trapped in a Mental Set? Investigative study on how mental sets affect the reasoning capabilities of LLMs [8.920202114368843]
本稿では,心的セットがLLMの推論能力に与える影響について検討する。メンタル・セット(Mental Sets)とは、以前成功していた戦略が非効率になったとしても継続する傾向を指す。 Llama-3.1-8B-インストラクト、Llama-3.1-70B-インストラクト、GPT-4oのようなメンタルセットの存在下でのLLMモデルの性能を比較した。
論文参考訳（メタデータ） (2025-01-21T02:29:15Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
Severity Prediction in Mental Health: LLM-based Creation, Analysis, Evaluation of a Novel Multilingual Dataset [3.4146360486107987]
大規模言語モデル(LLM)は、メンタルヘルス支援システムを含む様々な医療分野に統合されつつある。本稿では、広く使われているメンタルヘルスデータセットを英語から6言語に翻訳した新しい多言語適応法を提案する。このデータセットは、精神状態を検出し、複数の言語にわたる重症度を評価する上で、LLMのパフォーマンスを総合的に評価することを可能にする。
論文参考訳（メタデータ） (2024-09-25T22:14:34Z)
PsycoLLM: Enhancing LLM for Psychological Understanding and Evaluation [27.575675130769437]
そこで我々は,PsycoLLM(PsycoLLM)という特殊な心理大言語モデルを提案する。生成,エビデンス判定,精査を含む3段階のパイプラインを通して,マルチターン対話を構築する。 PsycoLLMと他のLLMの性能を比較するために,中国における権威心理学的カウンセリング試験に基づく総合心理学的ベンチマークを開発した。
論文参考訳（メタデータ） (2024-07-08T08:25:56Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文参考訳（メタデータ） (2024-06-09T09:03:11Z)
Exploring the Efficacy of Large Language Models in Summarizing Mental Health Counseling Sessions: A Benchmark Study [17.32433545370711]
セッションの包括的な要約は、メンタルヘルスカウンセリングにおいて効果的な継続を可能にする。手動要約は、専門家の注意をコアカウンセリングプロセスから逸脱させ、重要な課題を呈する。本研究は、治療セッションの様々な構成要素を選択的に要約する上で、最先端の大規模言語モデル(LLM)の有効性を評価する。
論文参考訳（メタデータ） (2024-02-29T11:29:47Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
Large Language Models in Mental Health Care: a Scoping Review [37.20036635036122]
本稿では,精神医療における言語モデル(LLM)の利用状況について,包括的に分析することを目的とする。 PubMed、Web of Science、Google Scholar、arXiv、medRxiv、PsyArXivなど、複数のデータベースで体系的な検索が行われた。
論文参考訳（メタデータ） (2024-01-01T17:35:52Z)
Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data [42.965788205842465]
本稿では,様々なメンタルヘルス予測タスクにおける多言語モデル(LLM)の包括的評価について述べる。ゼロショットプロンプト、少数ショットプロンプト、微調整を含む実験を行う。我々の最も精巧なモデルであるMental-AlpacaとMental-FLAN-T5は、バランスの取れた精度でGPT-3.5を10.9%上回り、GPT-4(250倍、150倍)を4.8%上回りました。
論文参考訳（メタデータ） (2023-07-26T06:00:50Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)
Towards Interpretable Mental Health Analysis with Large Language Models [27.776003210275608]
大規模言語モデル(LLM)のメンタルヘルス分析と感情的推論能力は,5つのタスクにまたがる11のデータセット上で評価した。本研究は, 精神保健分析のためのLCMについて, それぞれの意思決定に関する説明を提示するように指示することで, 解釈可能な精神保健分析を行う。得られた説明の質を評価するために、厳密な人的評価を伝達し、163の人的評価による新しいデータセットを作成する。
論文参考訳（メタデータ） (2023-04-06T19:53:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。