論文の概要: CPsyExam: A Chinese Benchmark for Evaluating Psychology using Examinations
- arxiv url: http://arxiv.org/abs/2405.10212v1
- Date: Thu, 16 May 2024 16:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 13:43:00.211464
- Title: CPsyExam: A Chinese Benchmark for Evaluating Psychology using Examinations
- Title(参考訳): CPsyExam: 中国の心理学評価ベンチマーク
- Authors: Jiahao Zhao, Jingwei Zhu, Minghuan Tan, Min Yang, Di Yang, Chenhao Zhang, Guancheng Ye, Chengming Li, Xiping Hu,
- Abstract要約: CPsyExamは心理学的知識とケース分析を別々に優先するよう設計されている。
22kの質問のプールから4kを使ってベンチマークを作成します。
- 参考スコア(独自算出の注目度): 28.097820924530655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel psychological benchmark, CPsyExam, constructed from questions sourced from Chinese language examinations. CPsyExam is designed to prioritize psychological knowledge and case analysis separately, recognizing the significance of applying psychological knowledge to real-world scenarios. From the pool of 22k questions, we utilize 4k to create the benchmark that offers balanced coverage of subjects and incorporates a diverse range of case analysis techniques.Furthermore, we evaluate a range of existing large language models~(LLMs), spanning from open-sourced to API-based models. Our experiments and analysis demonstrate that CPsyExam serves as an effective benchmark for enhancing the understanding of psychology within LLMs and enables the comparison of LLMs across various granularities.
- Abstract(参考訳): 本稿では,中国語の試験から得られた質問から構築した新しい心理学的ベンチマークCPsyExamを紹介する。
CPsyExamは、心理学的知識とケース分析を別々に優先順位付けし、現実世界のシナリオに心理学的知識を適用することの重要性を認識するように設計されている。
22kの質問のプールから4kを用いて、被験者のバランスの取れたカバレッジを提供し、さまざまなケース分析手法を取り入れたベンチマークを作成し、さらに、オープンソースからAPIベースのモデルまで、既存の大規模言語モデル~(LLM)の範囲を評価します。
実験と分析の結果,CPsyExam は LLM における心理学的理解を高めるための有効なベンチマークとして機能し,様々な粒度の LLM の比較を可能にした。
関連論文リスト
- PsycoLLM: Enhancing LLM for Psychological Understanding and Evaluation [19.5523530046302]
そこで我々は,PsycoLLM(PsycoLLM)という特殊な心理大言語モデルを提案する。
PsycoLLMと他のLLMの性能を比較するために,中国における権威心理学的カウンセリング試験に基づく総合心理学的ベンチマークを開発した。
ベンチマーク実験の結果は、他のLLMと比較して優れた性能を示すPsycoLLMの有効性を示している。
論文 参考訳(メタデータ) (2024-07-08T08:25:56Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - Surveying the Dead Minds: Historical-Psychological Text Analysis with
Contextualized Construct Representation (CCR) for Classical Chinese [4.772998830872483]
古典中国語における歴史的・心理学的テキスト分析のためのパイプラインを構築した。
このパイプラインは、サイコメトリックにおける専門家の知識と、トランスフォーマーベースの言語モデルによって生成されたテキスト表現を組み合わせる。
利用可能なデータの不足を考慮し,間接的教師付きコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T13:14:45Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Running cognitive evaluations on large language models: The do's and the
don'ts [3.8073142980733]
大規模言語モデルの認知能力評価を目的とした研究の方法論的考察について述べる。
私は、AIシステムの高品質な認知評価を設計するのに役立つであろう10のDoとDonをリストアップします。
論文 参考訳(メタデータ) (2023-12-03T04:28:19Z) - ConceptPsy:A Benchmark Suite with Conceptual Comprehensiveness in Psychology [25.845704502964143]
ConceptPsyは、中国の複雑な推論と心理学における知識能力を評価するように設計されている。
本稿では、中国の複雑な推論と心理学における知識能力を評価するために設計されたConceptPsyについて述べる。
論文 参考訳(メタデータ) (2023-11-16T12:43:18Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Sentiment Analysis Based on Deep Learning: A Comparative Study [69.09570726777817]
世論の研究は我々に貴重な情報を提供することができる。
感情分析の効率性と正確性は、自然言語処理で直面する課題によって妨げられている。
本稿では、感情分析の問題を解決するためにディープラーニングを用いた最新の研究をレビューする。
論文 参考訳(メタデータ) (2020-06-05T16:28:10Z) - Deep Learning Based Text Classification: A Comprehensive Review [75.8403533775179]
本稿では,近年開発されたテキスト分類のための150以上のディープラーニングモデルについてレビューする。
また、テキスト分類に広く使われている40以上の一般的なデータセットの要約も提供する。
論文 参考訳(メタデータ) (2020-04-06T02:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。