論文の概要: PsyBench: a balanced and in-depth Psychological Chinese Evaluation
Benchmark for Foundation Models
- arxiv url: http://arxiv.org/abs/2311.09861v2
- Date: Fri, 17 Nov 2023 03:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 11:55:48.466785
- Title: PsyBench: a balanced and in-depth Psychological Chinese Evaluation
Benchmark for Foundation Models
- Title(参考訳): psybench: 基礎モデルのバランスと深い心理学的中国評価ベンチマーク
- Authors: Junlei Zhang, Hongliang He, Nirui Song, Shuyuan He, Shuai Zhang,
Huachuan Qiu, Anqi Li, Lizhi Ma, Zhenzhong Lan
- Abstract要約: 卒業試験に必要な知識をすべて網羅する,中国初の総合的な評価スイートであるpsybenchを紹介する。
本研究は, 被験者の異なる部位における性能の有意な差異を示し, テストセットにおける知識のバランスが取れていない場合に, スクイード結果のリスクを強調した。
我々は, Psybench が基礎モデルの強みと弱みの徹底的な評価に役立ち, 心理学の分野での実践的応用を支援することを期待する。
- 参考スコア(独自算出の注目度): 24.374021704696858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) are becoming prevalent in various fields,
there is an urgent need for improved NLP benchmarks that encompass all the
necessary knowledge of individual discipline. Many contemporary benchmarks for
foundational models emphasize a broad range of subjects but often fall short in
presenting all the critical subjects and encompassing necessary professional
knowledge of them. This shortfall has led to skewed results, given that LLMs
exhibit varying performance across different subjects and knowledge areas. To
address this issue, we present psybench, the first comprehensive Chinese
evaluation suite that covers all the necessary knowledge required for graduate
entrance exams. psybench offers a deep evaluation of a model's strengths and
weaknesses in psychology through multiple-choice questions. Our findings show
significant differences in performance across different sections of a subject,
highlighting the risk of skewed results when the knowledge in test sets is not
balanced. Notably, only the ChatGPT model reaches an average accuracy above
$70\%$, indicating that there is still plenty of room for improvement. We
expect that psybench will help to conduct thorough evaluations of base models'
strengths and weaknesses and assist in practical application in the field of
psychology.
- Abstract(参考訳): 大規模言語モデル(llm)は様々な分野で普及しているため、個々の分野に必要な知識をすべて包含するnlpベンチマークの改善が急務である。
基礎モデルのための多くの現代のベンチマークは幅広い主題を強調するが、すべての重要な主題を提示し、それらに必要な専門知識を包含するのに不足することが多い。
この欠点は、llmが異なる主題と知識領域で様々なパフォーマンスを示すことから、歪んだ結果に繋がった。
この問題に対処するため、中国初の総合的な評価スイートであるpsybenchを紹介し、卒業試験に必要な知識をすべて網羅する。
psybenchは、複数の選択の質問を通じて、モデルの強みと心理学の弱点を深く評価する。
本研究は,被験者の異なるセクションにおける性能の有意な差を示し,テストセットの知識のバランスが取れない場合の歪んだ結果のリスクを浮き彫りにした。
注目すべきなのは、chatgptモデルのみが平均で$70\%$を超える精度に達していることだ。
我々は, Psybench が基礎モデルの強みと弱みの徹底的な評価に役立ち, 心理学の分野での実践的応用を支援することを期待する。
関連論文リスト
- FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。
大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。
初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文 参考訳(メタデータ) (2024-03-19T10:11:14Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with
Olympiad-Level Bilingual Multimodal Scientific Problems [63.451205097356926]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションから8,952の問題を取り上げている。
最も優れたモデルであるGPT-4Vは、オリンピアドベンチの平均スコアは17.23%に達し、物理では11.28%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - SceMQA: A Scientific College Entrance Level Multimodal Question
Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。
SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。
複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2024-02-06T19:16:55Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large
Language Models [39.46610170563634]
INSTRUCTEVALは、命令調整された大規模言語モデルのために特別に設計された、より包括的な評価スイートである。
我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。
その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。
論文 参考訳(メタデータ) (2023-06-07T20:12:29Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - A Survey of Methods for Addressing Class Imbalance in Deep-Learning
Based Natural Language Processing [68.37496795076203]
非バランスなデータを扱うNLP研究者や実践者に対してガイダンスを提供する。
まず、制御および実世界のクラス不均衡の様々なタイプについて論じる。
サンプリング,データ拡張,損失関数の選択,ステージ学習,モデル設計に基づく手法を整理する。
論文 参考訳(メタデータ) (2022-10-10T13:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。