Fugu-MT 論文翻訳(概要): PsyBench: a balanced and in-depth Psychological Chinese Evaluation Benchmark for Foundation Models

論文の概要: PsyBench: a balanced and in-depth Psychological Chinese Evaluation Benchmark for Foundation Models

arxiv url: http://arxiv.org/abs/2311.09861v2
Date: Fri, 17 Nov 2023 03:17:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-20 11:55:48.466785
Title: PsyBench: a balanced and in-depth Psychological Chinese Evaluation Benchmark for Foundation Models
Title（参考訳）: psybench: 基礎モデルのバランスと深い心理学的中国評価ベンチマーク
Authors: Junlei Zhang, Hongliang He, Nirui Song, Shuyuan He, Shuai Zhang, Huachuan Qiu, Anqi Li, Lizhi Ma, Zhenzhong Lan
Abstract要約: 卒業試験に必要な知識をすべて網羅する,中国初の総合的な評価スイートであるpsybenchを紹介する。本研究は, 被験者の異なる部位における性能の有意な差異を示し, テストセットにおける知識のバランスが取れていない場合に, スクイード結果のリスクを強調した。我々は, Psybench が基礎モデルの強みと弱みの徹底的な評価に役立ち, 心理学の分野での実践的応用を支援することを期待する。
参考スコア（独自算出の注目度）: 24.374021704696858
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Large Language Models (LLMs) are becoming prevalent in various fields, there is an urgent need for improved NLP benchmarks that encompass all the necessary knowledge of individual discipline. Many contemporary benchmarks for foundational models emphasize a broad range of subjects but often fall short in presenting all the critical subjects and encompassing necessary professional knowledge of them. This shortfall has led to skewed results, given that LLMs exhibit varying performance across different subjects and knowledge areas. To address this issue, we present psybench, the first comprehensive Chinese evaluation suite that covers all the necessary knowledge required for graduate entrance exams. psybench offers a deep evaluation of a model's strengths and weaknesses in psychology through multiple-choice questions. Our findings show significant differences in performance across different sections of a subject, highlighting the risk of skewed results when the knowledge in test sets is not balanced. Notably, only the ChatGPT model reaches an average accuracy above $70\%$, indicating that there is still plenty of room for improvement. We expect that psybench will help to conduct thorough evaluations of base models' strengths and weaknesses and assist in practical application in the field of psychology.
Abstract（参考訳）: 大規模言語モデル(llm)は様々な分野で普及しているため、個々の分野に必要な知識をすべて包含するnlpベンチマークの改善が急務である。基礎モデルのための多くの現代のベンチマークは幅広い主題を強調するが、すべての重要な主題を提示し、それらに必要な専門知識を包含するのに不足することが多い。この欠点は、llmが異なる主題と知識領域で様々なパフォーマンスを示すことから、歪んだ結果に繋がった。この問題に対処するため、中国初の総合的な評価スイートであるpsybenchを紹介し、卒業試験に必要な知識をすべて網羅する。 psybenchは、複数の選択の質問を通じて、モデルの強みと心理学の弱点を深く評価する。本研究は,被験者の異なるセクションにおける性能の有意な差を示し,テストセットの知識のバランスが取れない場合の歪んだ結果のリスクを浮き彫りにした。注目すべきなのは、chatgptモデルのみが平均で$70\%$を超える精度に達していることだ。我々は, Psybench が基礎モデルの強みと弱みの徹底的な評価に役立ち, 心理学の分野での実践的応用を支援することを期待する。

関連論文リスト

The Mind in the Machine: A Survey of Incorporating Psychological Theories in LLMs [5.4397630776007615]
本稿では,心理学理論がLarge Language Models (LLMs) の発達過程にどう影響するかを考察する。本調査は,認知,発達,行動,社会的,人格心理学,心理言語学の知見を統合した。クロスドメイン接続と緊張点の両方を調べることで、ディシプリナ分割を橋渡しし、将来のNLP研究への心理学のより思慮深い統合を促進することを目指している。
論文参考訳（メタデータ） (2025-03-28T16:55:24Z)
Psy-Insight: Explainable Multi-turn Bilingual Dataset for Mental Health Counseling [11.322620683028081]
Psy-Insightは、メンタルヘルス指向の説明可能な最初のマルチタスクバイリンガルデータセットである。私たちのアノテーションには、心理療法、感情、戦略、トピックラベル、ターンレベルの推論とセッションレベルのガイダンスが含まれています。実験により、Psy-Insight上でのLLMのトレーニングにより、モデルが会話スタイルを模倣するだけでなく、基礎となる戦略やカウンセリングの推論を理解することができることが示された。
論文参考訳（メタデータ） (2025-03-05T15:44:21Z)
Is your LLM trapped in a Mental Set? Investigative study on how mental sets affect the reasoning capabilities of LLMs [8.920202114368843]
本稿では,心的セットがLLMの推論能力に与える影響について検討する。メンタル・セット(Mental Sets)とは、以前成功していた戦略が非効率になったとしても継続する傾向を指す。 Llama-3.1-8B-インストラクト、Llama-3.1-70B-インストラクト、GPT-4oのようなメンタルセットの存在下でのLLMモデルの性能を比較した。
論文参考訳（メタデータ） (2025-01-21T02:29:15Z)
Are LLMs effective psychological assessors? Leveraging adaptive RAG for interpretable mental health screening through psychometric practice [2.9775344067885974]
本稿では,ソーシャルメディアの投稿を分析し,心理的アンケートを補完する適応型検索・拡張生成(RAG)手法を提案する。本手法は,心理調査において各質問に対する最も関連性の高いユーザ投稿を検索し,ゼロショット環境でのアンケート結果の予測にLarge Language Models (LLMs) を用いる。
論文参考訳（メタデータ） (2025-01-02T00:01:54Z)
PsycoLLM: Enhancing LLM for Psychological Understanding and Evaluation [27.575675130769437]
そこで我々は,PsycoLLM(PsycoLLM)という特殊な心理大言語モデルを提案する。生成,エビデンス判定,精査を含む3段階のパイプラインを通して,マルチターン対話を構築する。 PsycoLLMと他のLLMの性能を比較するために,中国における権威心理学的カウンセリング試験に基づく総合心理学的ベンチマークを開発した。
論文参考訳（メタデータ） (2024-07-08T08:25:56Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文参考訳（メタデータ） (2024-06-09T09:03:11Z)
CPsyExam: A Chinese Benchmark for Evaluating Psychology using Examinations [28.097820924530655]
CPsyExamは心理学的知識とケース分析を別々に優先するよう設計されている。 22kの質問のプールから4kを使ってベンチマークを作成します。
論文参考訳（メタデータ） (2024-05-16T16:02:18Z)
PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文参考訳（メタデータ） (2024-02-19T18:00:30Z)
Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T20:41:18Z)
PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2023-10-31T08:23:33Z)
Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using PsychoBench [83.41621219298489]
大規模言語モデル(LLM)の多様な心理学的側面を評価するためのフレームワーク「サイコベンチ」を提案する。サイコベンチはこれらの尺度を、性格特性、対人関係、モチベーションテスト、感情能力の4つのカテゴリーに分類する。我々は、安全アライメントプロトコルをバイパスし、LLMの本質的な性質をテストするためにジェイルブレイクアプローチを採用している。
論文参考訳（メタデータ） (2023-10-02T17:46:09Z)
The Cultural Psychology of Large Language Models: Is ChatGPT a Holistic or Analytic Thinker? [30.215769791433953]
文化心理学の研究は、東西の人々の認知過程に有意な差異が認められた。 ChatGPTは一貫して東洋の全体主義的思考に傾倒する。 ChatGPTは東や西にはあまり傾きません。
論文参考訳（メタデータ） (2023-08-28T01:05:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。