論文の概要: Investigating the Applicability of Self-Assessment Tests for Personality
Measurement of Large Language Models
- arxiv url: http://arxiv.org/abs/2309.08163v1
- Date: Fri, 15 Sep 2023 05:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:53:07.723139
- Title: Investigating the Applicability of Self-Assessment Tests for Personality
Measurement of Large Language Models
- Title(参考訳): 大規模言語モデルのパーソナリティ測定における自己評価テストの適用性の検討
- Authors: Akshat Gupta, Xiaoyang Song, Gopala Anumanchipalli
- Abstract要約: 人間の行動を研究するために作成した人格自己評価テストを用いた大規模言語モデル(LLM)の人格測定について3つの研究を行った。
3つのプロンプトがそれぞれ異なるパーソナリティスコアを導いていることが分かりました。
これらの簡単なテストは、ChatGPTとLlama2モデルで行われ、人間のために作成された自己評価のパーソナリティテストは、LLMのパーソナリティを測定するのに適していないことを示している。
- 参考スコア(独自算出の注目度): 2.887477629420772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLM) evolve in their capabilities, various recent
studies have tried to quantify their behavior using psychological tools created
to study human behavior. One such example is the measurement of "personality"
of LLMs using personality self-assessment tests. In this paper, we take three
such studies on personality measurement of LLMs that use personality
self-assessment tests created to study human behavior. We use the prompts used
in these three different papers to measure the personality of the same LLM. We
find that all three prompts lead very different personality scores. This simple
test reveals that personality self-assessment scores in LLMs depend on the
subjective choice of the prompter. Since we don't know the ground truth value
of personality scores for LLMs as there is no correct answer to such questions,
there's no way of claiming if one prompt is more or less correct than the
other. We then introduce the property of option order symmetry for personality
measurement of LLMs. Since most of the self-assessment tests exist in the form
of multiple choice question (MCQ) questions, we argue that the scores should
also be robust to not just the prompt template but also the order in which the
options are presented. This test unsurprisingly reveals that the answers to the
self-assessment tests are not robust to the order of the options. These simple
tests, done on ChatGPT and Llama2 models show that self-assessment personality
tests created for humans are not appropriate for measuring personality in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力が進化するにつれて、様々な研究が人間の行動を研究するための心理的ツールを用いて行動の定量化を試みた。
そのような例として、パーソナリティ自己評価テストを用いたLLMの「個性」の測定がある。
本稿では、人間の行動を研究するために人格自己評価テストを用いたLDMの人格測定について3つの研究を行った。
我々はこれらの3つの異なる論文で用いられるプロンプトを用いて、同じLDMの性格を測定する。
3つのプロンプトが全く異なるパーソナリティスコアを導くことが分かりました。
この簡単なテストにより、LSMにおける自己評価スコアはプロンプトの主観的選択に依存することが明らかになった。
LLMのパーソナリティスコアの基本的な真理値が分かっていないため、そのような質問に対する正しい答えがないため、一方のプロンプトが他方よりも多かれ少なかれ正しいという主張はできない。
次に, LLMの個性測定におけるオプション次対称性の特性を紹介する。
自己評価テストのほとんどは、多重選択質問(multiple choice question:mcq)という形式で存在するため、スコアはプロンプトテンプレートだけでなく、オプションが提示される順序にも頑健であるべきだと論じている。
このテストは当然のことながら、自己評価テストに対する回答がオプションの順序に対して堅牢でないことを明らかにしている。
chatgptとllama2のモデルで行ったこれらの単純なテストは、人間のために作られた自己評価のパーソナリティテストがllmのパーソナリティを測定するのに適していないことを示している。
関連論文リスト
- Humanity in AI: Detecting the Personality of Large Language Models [0.0]
アンケートは大規模言語モデル(LLM)の個性を検出する一般的な方法である
本稿では,テキストマイニングとアンケート手法の組み合わせを提案する。
LLMのパーソナリティは、事前訓練されたデータから導かれる。
論文 参考訳(メタデータ) (2024-10-11T05:53:11Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics [29.325576963215163]
大規模言語モデル(LLM)は会話エージェントとして様々な領域に適応している。
LLMのパーソナリティを評価するために設計された8Kのマルチチョイス質問からなる新しいベンチマークTRAITを紹介する。
LLMは独特で一貫した性格を示し、トレーニングデータの影響を強く受けている。
論文 参考訳(メタデータ) (2024-06-20T19:50:56Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - Identifying Multiple Personalities in Large Language Models with
External Evaluation [6.657168333238573]
大きな言語モデル(LLM)は、人間の日常的なアプリケーションと迅速に統合されます。
近年の多くの研究は、人間のために作られた自己評価テストを用いて、LLMの個性を定量化している。
しかし、LCMに適用した場合、これらの自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。
論文 参考訳(メタデータ) (2024-02-22T18:57:20Z) - Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。
人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文 参考訳(メタデータ) (2023-11-09T11:54:01Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Have Large Language Models Developed a Personality?: Applicability of
Self-Assessment Tests in Measuring Personality in LLMs [1.1316247605466567]
言語モデルでパーソナリティを測定するための適切なツールがまだないことを示す。
過去の研究は自己評価人格テストを通じてマシンパーソナリティを評価してきた。
論文 参考訳(メタデータ) (2023-05-24T03:53:43Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。