論文の概要: ConceptPsy:A Benchmark Suite with Conceptual Comprehensiveness in Psychology
- arxiv url: http://arxiv.org/abs/2311.09861v4
- Date: Sun, 16 Jun 2024 11:33:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 11:31:28.941781
- Title: ConceptPsy:A Benchmark Suite with Conceptual Comprehensiveness in Psychology
- Title(参考訳): ConceptPsy:心理学における概念的包括性を備えたベンチマークスイート
- Authors: Junlei Zhang, Hongliang He, Nirui Song, Zhanchao Zhou, Shuyuan He, Shuai Zhang, Huachuan Qiu, Anqi Li, Yong Dai, Lizhi Ma, Zhenzhong Lan,
- Abstract要約: ConceptPsyは、中国の複雑な推論と心理学における知識能力を評価するように設計されている。
本稿では、中国の複雑な推論と心理学における知識能力を評価するために設計されたConceptPsyについて述べる。
- 参考スコア(独自算出の注目度): 25.845704502964143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The critical field of psychology necessitates a comprehensive benchmark to enhance the evaluation and development of domain-specific Large Language Models (LLMs). Existing MMLU-type benchmarks, such as C-EVAL and CMMLU, include psychology-related subjects, but their limited number of questions and lack of systematic concept sampling strategies mean they cannot cover the concepts required in psychology. Consequently, despite their broad subject coverage, these benchmarks lack the necessary depth in the psychology domain, making them inadequate as psychology-specific evaluation suite. To address this issue, this paper presents ConceptPsy, designed to evaluate Chinese complex reasoning and knowledge abilities in psychology. ConceptPsy includes 12 core subjects and 1383 manually collected concepts. Specifically, we prompt GPT-4 to generate questions for each concept using carefully designed diverse prompts and hire professional psychologists to review these questions. To help to understand the fine-grained performances and enhance the weaknesses, we annotate each question with a chapter label and provide chapter-wise accuracy. Based on ConceptPsy, we evaluate a broad range of LLMs. We observe that, although some LLMs achieve similar accuracies on overall performances, they exhibit significant performance variations across different psychology concepts, even when they are models from the same series. We hope our work can facilitate the development of LLMs in the field of psychology.
- Abstract(参考訳): 心理学の重要な分野は、ドメイン固有の大規模言語モデル(LLM)の評価と開発を強化するために包括的なベンチマークを必要とする。
C-EVAL や CMMLU のような既存の MMLU タイプのベンチマークには、心理学関連の主題が含まれているが、その限られた数の質問と体系的な概念サンプリング戦略の欠如は、心理学で必要とされる概念をカバーできないことを意味する。
その結果、対象範囲が広いにもかかわらず、これらのベンチマークは心理学領域に必要な深さを欠いており、心理学固有の評価スイートとして不十分である。
この問題に対処するために,中国における複雑な推論と心理学における知識能力の評価を目的としたConceptPsyを提案する。
ConceptPsyには12の主題と1383の手作業による概念が含まれている。
具体的には、慎重に設計された多様なプロンプトを用いて、GPT-4に各概念に対する質問を生成し、これらの質問をレビューするために専門家の心理学者を雇う。
きめ細かいパフォーマンスを理解し、弱点を強化するために、各質問を章ラベルで注釈付けし、章ごとの精度を提供する。
ConceptPsy をベースとして,幅広い LLM の評価を行った。
我々は,LLMが全体のパフォーマンスにおいて類似の精度を達成しているが,同一シリーズのモデルである場合でも,異なる心理学的概念の相違が顕著に現れることを観察した。
我々の研究が心理学の分野におけるLSMの発展を促進することを願っている。
関連論文リスト
- PsycoLLM: Enhancing LLM for Psychological Understanding and Evaluation [27.575675130769437]
そこで我々は,PsycoLLM(PsycoLLM)という特殊な心理大言語モデルを提案する。
生成,エビデンス判定,精査を含む3段階のパイプラインを通して,マルチターン対話を構築する。
PsycoLLMと他のLLMの性能を比較するために,中国における権威心理学的カウンセリング試験に基づく総合心理学的ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-07-08T08:25:56Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - CPsyExam: A Chinese Benchmark for Evaluating Psychology using Examinations [28.097820924530655]
CPsyExamは心理学的知識とケース分析を別々に優先するよう設計されている。
22kの質問のプールから4kを使ってベンチマークを作成します。
論文 参考訳(メタデータ) (2024-05-16T16:02:18Z) - PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using
PsychoBench [83.41621219298489]
大規模言語モデル(LLM)の多様な心理学的側面を評価するためのフレームワーク「サイコベンチ」を提案する。
サイコベンチはこれらの尺度を、性格特性、対人関係、モチベーションテスト、感情能力の4つのカテゴリーに分類する。
我々は、安全アライメントプロトコルをバイパスし、LLMの本質的な性質をテストするためにジェイルブレイクアプローチを採用している。
論文 参考訳(メタデータ) (2023-10-02T17:46:09Z) - The Cultural Psychology of Large Language Models: Is ChatGPT a Holistic
or Analytic Thinker? [30.215769791433953]
文化心理学の研究は、東西の人々の認知過程に有意な差異が認められた。
ChatGPTは一貫して東洋の全体主義的思考に傾倒する。
ChatGPTは東や西にはあまり傾きません。
論文 参考訳(メタデータ) (2023-08-28T01:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。