論文の概要: Investigating the Applicability of Self-Assessment Tests for Personality
Measurement of Large Language Models
- arxiv url: http://arxiv.org/abs/2309.08163v1
- Date: Fri, 15 Sep 2023 05:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:53:07.723139
- Title: Investigating the Applicability of Self-Assessment Tests for Personality
Measurement of Large Language Models
- Title(参考訳): 大規模言語モデルのパーソナリティ測定における自己評価テストの適用性の検討
- Authors: Akshat Gupta, Xiaoyang Song, Gopala Anumanchipalli
- Abstract要約: 人間の行動を研究するために作成した人格自己評価テストを用いた大規模言語モデル(LLM)の人格測定について3つの研究を行った。
3つのプロンプトがそれぞれ異なるパーソナリティスコアを導いていることが分かりました。
これらの簡単なテストは、ChatGPTとLlama2モデルで行われ、人間のために作成された自己評価のパーソナリティテストは、LLMのパーソナリティを測定するのに適していないことを示している。
- 参考スコア(独自算出の注目度): 2.887477629420772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLM) evolve in their capabilities, various recent
studies have tried to quantify their behavior using psychological tools created
to study human behavior. One such example is the measurement of "personality"
of LLMs using personality self-assessment tests. In this paper, we take three
such studies on personality measurement of LLMs that use personality
self-assessment tests created to study human behavior. We use the prompts used
in these three different papers to measure the personality of the same LLM. We
find that all three prompts lead very different personality scores. This simple
test reveals that personality self-assessment scores in LLMs depend on the
subjective choice of the prompter. Since we don't know the ground truth value
of personality scores for LLMs as there is no correct answer to such questions,
there's no way of claiming if one prompt is more or less correct than the
other. We then introduce the property of option order symmetry for personality
measurement of LLMs. Since most of the self-assessment tests exist in the form
of multiple choice question (MCQ) questions, we argue that the scores should
also be robust to not just the prompt template but also the order in which the
options are presented. This test unsurprisingly reveals that the answers to the
self-assessment tests are not robust to the order of the options. These simple
tests, done on ChatGPT and Llama2 models show that self-assessment personality
tests created for humans are not appropriate for measuring personality in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力が進化するにつれて、様々な研究が人間の行動を研究するための心理的ツールを用いて行動の定量化を試みた。
そのような例として、パーソナリティ自己評価テストを用いたLLMの「個性」の測定がある。
本稿では、人間の行動を研究するために人格自己評価テストを用いたLDMの人格測定について3つの研究を行った。
我々はこれらの3つの異なる論文で用いられるプロンプトを用いて、同じLDMの性格を測定する。
3つのプロンプトが全く異なるパーソナリティスコアを導くことが分かりました。
この簡単なテストにより、LSMにおける自己評価スコアはプロンプトの主観的選択に依存することが明らかになった。
LLMのパーソナリティスコアの基本的な真理値が分かっていないため、そのような質問に対する正しい答えがないため、一方のプロンプトが他方よりも多かれ少なかれ正しいという主張はできない。
次に, LLMの個性測定におけるオプション次対称性の特性を紹介する。
自己評価テストのほとんどは、多重選択質問(multiple choice question:mcq)という形式で存在するため、スコアはプロンプトテンプレートだけでなく、オプションが提示される順序にも頑健であるべきだと論じている。
このテストは当然のことながら、自己評価テストに対する回答がオプションの順序に対して堅牢でないことを明らかにしている。
chatgptとllama2のモデルで行ったこれらの単純なテストは、人間のために作られた自己評価のパーソナリティテストがllmのパーソナリティを測定するのに適していないことを示している。
関連論文リスト
- LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - Identifying Multiple Personalities in Large Language Models with
External Evaluation [6.657168333238573]
大きな言語モデル(LLM)は、人間の日常的なアプリケーションと迅速に統合されます。
近年の多くの研究は、人間のために作られた自己評価テストを用いて、LLMの個性を定量化している。
しかし、LCMに適用した場合、これらの自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。
論文 参考訳(メタデータ) (2024-02-22T18:57:20Z) - Illuminating the Black Box: A Psychometric Investigation into the
Multifaceted Nature of Large Language Models [3.692410936160711]
本研究では,AIパーソナリティやAInalityの概念を探求し,Large Language Models(LLM)が人間のパーソナリティに似たパターンを示すことを示唆する。
プロジェクティブテストを用いて,直接質問を通じて容易にはアクセスできないLLM個性の隠れた側面を明らかにする。
機械学習解析の結果,LSMは異なるAinality特性を示し,多様な性格型を示し,外的指示に応答して動的に変化を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-12-21T04:57:21Z) - Do personality tests generalize to Large Language Models? [2.85386288555414]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞うようにみえる。
異なる試験の妥当性が LLM にどの程度一般化するかは明らかになっていない。
人格検査に対するLSMの反応が、典型的な人間の反応から体系的に逸脱している証拠を提供する。
論文 参考訳(メタデータ) (2023-11-09T11:54:01Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Revisiting the Reliability of Psychological Scales on Large Language
Models [66.31055885857062]
本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Have Large Language Models Developed a Personality?: Applicability of
Self-Assessment Tests in Measuring Personality in LLMs [1.1316247605466567]
言語モデルでパーソナリティを測定するための適切なツールがまだないことを示す。
過去の研究は自己評価人格テストを通じてマシンパーソナリティを評価してきた。
論文 参考訳(メタデータ) (2023-05-24T03:53:43Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。