論文の概要: Can ChatGPT Assess Human Personalities? A General Evaluation Framework
- arxiv url: http://arxiv.org/abs/2303.01248v1
- Date: Wed, 1 Mar 2023 06:16:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:20:06.449706
- Title: Can ChatGPT Assess Human Personalities? A General Evaluation Framework
- Title(参考訳): ChatGPTは人格を評価できるのか?
総合評価フレームワーク
- Authors: Haocong Rao, Cyril Leung, Chunyan Miao
- Abstract要約: 大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 61.87402834087615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) especially ChatGPT have produced impressive
results in various areas, but their potential human-like psychology is still
largely unexplored. Existing works study the virtual personalities of LLMs but
rarely explore the possibility of analyzing human personalities via LLMs. This
paper presents a generic evaluation framework for LLMs to assess human
personalities based on Myers Briggs Type Indicator (MBTI) tests. Specifically,
we first devise unbiased prompts by randomly permuting options in MBTI
questions and adopt the average testing result to encourage more impartial
answer generation. Then, we propose to replace the subject in question
statements to enable flexible queries and assessments on different subjects
from LLMs. Finally, we re-formulate the question instructions in a manner of
correctness evaluation to facilitate LLMs to generate clearer responses. The
proposed framework enables LLMs to flexibly assess personalities of different
groups of people. We further propose three evaluation metrics to measure the
consistency, robustness, and fairness of assessment results from
state-of-the-art LLMs including ChatGPT and InstructGPT. Our experiments reveal
ChatGPT's ability to assess human personalities, and the average results
demonstrate that it can achieve more consistent and fairer assessments in spite
of lower robustness against prompt biases compared with InstructGPT.
- Abstract(参考訳): 大規模言語モデル(LLM)、特にChatGPTは、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに解明されていない。
既存の研究は、LLMの仮想的個性を研究するが、LLMを通して人間の個性を分析する可能性を調べることは滅多にない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
具体的には,MBTI質問のオプションをランダムに変更することで,偏りのないプロンプトを考案し,平均的なテスト結果を採用して,より公平な回答生成を促す。
次に,質問文の主題を置き換え,llmの異なる課題に対する柔軟な質問と評価を可能にすることを提案する。
最後に,LLMがより明確な応答を生成できるように,質問文を精度評価の方法で再フォーマットする。
提案フレームワークにより,LLMは異なるグループの個人性を柔軟に評価することができる。
さらに,ChatGPT や InstructGPT などの最先端 LLM による評価結果の整合性,堅牢性,公平性を評価するための3つの評価指標を提案する。
実験の結果,ChatGPTの人格評価能力は,InstructGPTと比較すると,迅速なバイアスに対するロバスト性は低いものの,より一貫性があり,公平な評価が可能であることが示された。
関連論文リスト
- Humanity in AI: Detecting the Personality of Large Language Models [0.0]
アンケートは大規模言語モデル(LLM)の個性を検出する一般的な方法である
本稿では,テキストマイニングとアンケート手法の組み合わせを提案する。
LLMのパーソナリティは、事前訓練されたデータから導かれる。
論文 参考訳(メタデータ) (2024-10-11T05:53:11Z) - Limited Ability of LLMs to Simulate Human Psychological Behaviours: a Psychometric Analysis [0.27309692684728604]
我々はOpenAIのフラッグシップモデルであるGPT-3.5とGPT-4に、異なるペルソナを仮定し、パーソナ構成の標準化された範囲に対応するよう促す。
その結果, GPT-4からの反応は, GPT-3.5ではなく, 汎用的なペルソナ記述を用いれば, 完全ではないものの, 有望な心理特性を示すことがわかった。
論文 参考訳(メタデータ) (2024-05-12T10:52:15Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。
人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文 参考訳(メタデータ) (2023-11-09T11:54:01Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits [30.770525830385637]
本研究では,ビッグファイブ・パーソナリティ・モデルに基づく大規模言語モデル(LLM)の行動について検討する。
その結果, LLMペルソナの自己申告したBFIスコアは, 指定した性格タイプと一致していることがわかった。
人間の評価は、人間は最大80%の精度でいくつかの性格特性を知覚できることを示している。
論文 参考訳(メタデータ) (2023-05-04T04:58:00Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。