論文の概要: PsyBench: a balanced and in-depth Psychological Chinese Evaluation
Benchmark for Foundation Models
- arxiv url: http://arxiv.org/abs/2311.09861v2
- Date: Fri, 17 Nov 2023 03:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 11:55:48.466785
- Title: PsyBench: a balanced and in-depth Psychological Chinese Evaluation
Benchmark for Foundation Models
- Title(参考訳): psybench: 基礎モデルのバランスと深い心理学的中国評価ベンチマーク
- Authors: Junlei Zhang, Hongliang He, Nirui Song, Shuyuan He, Shuai Zhang,
Huachuan Qiu, Anqi Li, Lizhi Ma, Zhenzhong Lan
- Abstract要約: 卒業試験に必要な知識をすべて網羅する,中国初の総合的な評価スイートであるpsybenchを紹介する。
本研究は, 被験者の異なる部位における性能の有意な差異を示し, テストセットにおける知識のバランスが取れていない場合に, スクイード結果のリスクを強調した。
我々は, Psybench が基礎モデルの強みと弱みの徹底的な評価に役立ち, 心理学の分野での実践的応用を支援することを期待する。
- 参考スコア(独自算出の注目度): 24.374021704696858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) are becoming prevalent in various fields,
there is an urgent need for improved NLP benchmarks that encompass all the
necessary knowledge of individual discipline. Many contemporary benchmarks for
foundational models emphasize a broad range of subjects but often fall short in
presenting all the critical subjects and encompassing necessary professional
knowledge of them. This shortfall has led to skewed results, given that LLMs
exhibit varying performance across different subjects and knowledge areas. To
address this issue, we present psybench, the first comprehensive Chinese
evaluation suite that covers all the necessary knowledge required for graduate
entrance exams. psybench offers a deep evaluation of a model's strengths and
weaknesses in psychology through multiple-choice questions. Our findings show
significant differences in performance across different sections of a subject,
highlighting the risk of skewed results when the knowledge in test sets is not
balanced. Notably, only the ChatGPT model reaches an average accuracy above
$70\%$, indicating that there is still plenty of room for improvement. We
expect that psybench will help to conduct thorough evaluations of base models'
strengths and weaknesses and assist in practical application in the field of
psychology.
- Abstract(参考訳): 大規模言語モデル(llm)は様々な分野で普及しているため、個々の分野に必要な知識をすべて包含するnlpベンチマークの改善が急務である。
基礎モデルのための多くの現代のベンチマークは幅広い主題を強調するが、すべての重要な主題を提示し、それらに必要な専門知識を包含するのに不足することが多い。
この欠点は、llmが異なる主題と知識領域で様々なパフォーマンスを示すことから、歪んだ結果に繋がった。
この問題に対処するため、中国初の総合的な評価スイートであるpsybenchを紹介し、卒業試験に必要な知識をすべて網羅する。
psybenchは、複数の選択の質問を通じて、モデルの強みと心理学の弱点を深く評価する。
本研究は,被験者の異なるセクションにおける性能の有意な差を示し,テストセットの知識のバランスが取れない場合の歪んだ結果のリスクを浮き彫りにした。
注目すべきなのは、chatgptモデルのみが平均で$70\%$を超える精度に達していることだ。
我々は, Psybench が基礎モデルの強みと弱みの徹底的な評価に役立ち, 心理学の分野での実践的応用を支援することを期待する。
関連論文リスト
- PsycoLLM: Enhancing LLM for Psychological Understanding and Evaluation [27.575675130769437]
そこで我々は,PsycoLLM(PsycoLLM)という特殊な心理大言語モデルを提案する。
生成,エビデンス判定,精査を含む3段階のパイプラインを通して,マルチターン対話を構築する。
PsycoLLMと他のLLMの性能を比較するために,中国における権威心理学的カウンセリング試験に基づく総合心理学的ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-07-08T08:25:56Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - CPsyExam: A Chinese Benchmark for Evaluating Psychology using Examinations [28.097820924530655]
CPsyExamは心理学的知識とケース分析を別々に優先するよう設計されている。
22kの質問のプールから4kを使ってベンチマークを作成します。
論文 参考訳(メタデータ) (2024-05-16T16:02:18Z) - PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using
PsychoBench [83.41621219298489]
大規模言語モデル(LLM)の多様な心理学的側面を評価するためのフレームワーク「サイコベンチ」を提案する。
サイコベンチはこれらの尺度を、性格特性、対人関係、モチベーションテスト、感情能力の4つのカテゴリーに分類する。
我々は、安全アライメントプロトコルをバイパスし、LLMの本質的な性質をテストするためにジェイルブレイクアプローチを採用している。
論文 参考訳(メタデータ) (2023-10-02T17:46:09Z) - The Cultural Psychology of Large Language Models: Is ChatGPT a Holistic
or Analytic Thinker? [30.215769791433953]
文化心理学の研究は、東西の人々の認知過程に有意な差異が認められた。
ChatGPTは一貫して東洋の全体主義的思考に傾倒する。
ChatGPTは東や西にはあまり傾きません。
論文 参考訳(メタデータ) (2023-08-28T01:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。