論文の概要: PychoBench: Evaluating the Psychology Intelligence of Large Language Models
- arxiv url: http://arxiv.org/abs/2510.01611v1
- Date: Thu, 02 Oct 2025 02:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.957024
- Title: PychoBench: Evaluating the Psychology Intelligence of Large Language Models
- Title(参考訳): PychoBench: 大規模言語モデルの心理学的知性を評価する
- Authors: Min Zeng,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い産業で顕著な成功を収めている。
しかし、心理学的カウンセリングのような認知能力を必要とするアプリケーションにおけるその可能性はほとんど未解決のままである。
LLMは心理的カウンセリングに効果的に適用できるのか?
- 参考スコア(独自算出の注目度): 7.565556545193657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable success across a wide range of industries, primarily due to their impressive generative abilities. Yet, their potential in applications requiring cognitive abilities, such as psychological counseling, remains largely untapped. This paper investigates the key question: Can LLMs be effectively applied to psychological counseling? To determine whether an LLM can effectively take on the role of a psychological counselor, the first step is to assess whether it meets the qualifications required for such a role, namely the ability to pass the U.S. National Counselor Certification Exam (NCE). This is because, just as a human counselor must pass a certification exam to practice, an LLM must demonstrate sufficient psychological knowledge to meet the standards required for such a role. To address this, we introduce PsychoBench, a benchmark grounded in U.S.national counselor examinations, a licensure test for professional counselors that requires about 70% accuracy to pass. PsychoBench comprises approximately 2,252 carefully curated single-choice questions, crafted to require deep understanding and broad enough to cover various sub-disciplines of psychology. This benchmark provides a comprehensive assessment of an LLM's ability to function as a counselor. Our evaluation shows that advanced models such as GPT-4o, Llama3.3-70B, and Gemma3-27B achieve well above the passing threshold, while smaller open-source models (e.g., Qwen2.5-7B, Mistral-7B) remain far below it. These results suggest that only frontier LLMs are currently capable of meeting counseling exam standards, highlighting both the promise and the challenges of developing psychology-oriented LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な産業で顕著な成功を収めている。
しかし、心理学的カウンセリングのような認知能力を必要とする応用におけるその可能性はほとんど未解決のままである。
LLMは心理的カウンセリングに効果的に適用できるのか?
LLMが心理学的カウンセラーの役割を効果的に担うことができるかどうかを判断するために、最初のステップは、その役割に必要な資格、すなわち米国国家検事認定試験(NCE)に合格する能力を満たすかどうかを評価することである。
これは、人間のカウンセラーが認定試験に合格しなければならないのと同じように、LCMはそのような役割に必要な基準を満たすのに十分な心理的知識を示さなければならないためである。
この問題に対処するため、米国国家カウンセラー試験の基準となるベンチマークであるサイコベンチを導入し、合格に約70%の正確性を必要とする専門カウンセラーに対するライセンス試験を実施しました。
サイコベンチは、2,252件の精査された単一選択質問で構成されており、深い理解を必要とし、心理学の様々なサブ分野をカバーするのに十分な広さを持つ。
このベンチマークは、LLMがカウンセラーとして機能する能力の包括的な評価を提供する。
GPT-4o, Llama3.3-70B, Gemma3-27Bなどの先進モデルが通過しきい値よりはるかに上回っているのに対して, 小さなオープンソースモデル(Qwen2.5-7B, Mistral-7B)はそれよりずっと下にある。
これらの結果から,心理学指向のLSMを開発する上での約束と課題を浮き彫りにして,カウンセリング試験基準を満たせるのはフロンティアLSMのみであることが示唆された。
関連論文リスト
- Psychological Counseling Ability of Large Language Models [0.6752538702870792]
本研究は,1096件の心理カウンセリングスキル質問を用いて,LLMの心理カウンセリング能力を評価した。
中国の質問に対するLCMの正当率は、GLM-3(46.5%)、GPT-4(46.1%)、Gemini(45.0%)、ERNIE-3.5(45.7%)、GPT-3.5(32.9%)である。
チ二乗検定では、中国語と英語の質問に対するLLMのパフォーマンスに有意な違いが認められた。
論文 参考訳(メタデータ) (2025-03-01T08:01:25Z) - Do Large Language Models Align with Core Mental Health Counseling Competencies? [19.375161727597536]
大規模言語モデル(LLM)は、メンタルヘルス専門家の世界的な不足に対する有望な解決策である。
NCMHCEベースの新しいベンチマークであるCounselingBenchを紹介する。
以上の結果から,コアメンタルヘルスカウンセリング能力と整合した,高度に調整されたモデルの必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-10-29T18:27:11Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Large Language Models are Capable of Offering Cognitive Reappraisal, if Guided [38.11184388388781]
大規模言語モデル(LLM)は感情的サポートの新しい機会を提供する。
この研究は、認知的再評価に取り組み、第一歩を踏み出す。
我々は、認知的再評価反応を生成するLLMのゼロショット能力について、第一種専門家による評価を行う。
論文 参考訳(メタデータ) (2024-04-01T17:56:30Z) - PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using
PsychoBench [83.41621219298489]
大規模言語モデル(LLM)の多様な心理学的側面を評価するためのフレームワーク「サイコベンチ」を提案する。
サイコベンチはこれらの尺度を、性格特性、対人関係、モチベーションテスト、感情能力の4つのカテゴリーに分類する。
我々は、安全アライメントプロトコルをバイパスし、LLMの本質的な性質をテストするためにジェイルブレイクアプローチを採用している。
論文 参考訳(メタデータ) (2023-10-02T17:46:09Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。