Fugu-MT 論文翻訳(概要): Investigating the Applicability of Self-Assessment Tests for Personality Measurement of Large Language Models

論文の概要: Investigating the Applicability of Self-Assessment Tests for Personality Measurement of Large Language Models

arxiv url: http://arxiv.org/abs/2309.08163v1
Date: Fri, 15 Sep 2023 05:19:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-18 15:53:07.723139
Title: Investigating the Applicability of Self-Assessment Tests for Personality Measurement of Large Language Models
Title（参考訳）: 大規模言語モデルのパーソナリティ測定における自己評価テストの適用性の検討
Authors: Akshat Gupta, Xiaoyang Song, Gopala Anumanchipalli
Abstract要約: 人間の行動を研究するために作成した人格自己評価テストを用いた大規模言語モデル(LLM)の人格測定について3つの研究を行った。 3つのプロンプトがそれぞれ異なるパーソナリティスコアを導いていることが分かりました。これらの簡単なテストは、ChatGPTとLlama2モデルで行われ、人間のために作成された自己評価のパーソナリティテストは、LLMのパーソナリティを測定するのに適していないことを示している。
参考スコア（独自算出の注目度）: 2.887477629420772
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLM) evolve in their capabilities, various recent studies have tried to quantify their behavior using psychological tools created to study human behavior. One such example is the measurement of "personality" of LLMs using personality self-assessment tests. In this paper, we take three such studies on personality measurement of LLMs that use personality self-assessment tests created to study human behavior. We use the prompts used in these three different papers to measure the personality of the same LLM. We find that all three prompts lead very different personality scores. This simple test reveals that personality self-assessment scores in LLMs depend on the subjective choice of the prompter. Since we don't know the ground truth value of personality scores for LLMs as there is no correct answer to such questions, there's no way of claiming if one prompt is more or less correct than the other. We then introduce the property of option order symmetry for personality measurement of LLMs. Since most of the self-assessment tests exist in the form of multiple choice question (MCQ) questions, we argue that the scores should also be robust to not just the prompt template but also the order in which the options are presented. This test unsurprisingly reveals that the answers to the self-assessment tests are not robust to the order of the options. These simple tests, done on ChatGPT and Llama2 models show that self-assessment personality tests created for humans are not appropriate for measuring personality in LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)の能力が進化するにつれて、様々な研究が人間の行動を研究するための心理的ツールを用いて行動の定量化を試みた。そのような例として、パーソナリティ自己評価テストを用いたLLMの「個性」の測定がある。本稿では、人間の行動を研究するために人格自己評価テストを用いたLDMの人格測定について3つの研究を行った。我々はこれらの3つの異なる論文で用いられるプロンプトを用いて、同じLDMの性格を測定する。 3つのプロンプトが全く異なるパーソナリティスコアを導くことが分かりました。この簡単なテストにより、LSMにおける自己評価スコアはプロンプトの主観的選択に依存することが明らかになった。 LLMのパーソナリティスコアの基本的な真理値が分かっていないため、そのような質問に対する正しい答えがないため、一方のプロンプトが他方よりも多かれ少なかれ正しいという主張はできない。次に, LLMの個性測定におけるオプション次対称性の特性を紹介する。自己評価テストのほとんどは、多重選択質問(multiple choice question:mcq)という形式で存在するため、スコアはプロンプトテンプレートだけでなく、オプションが提示される順序にも頑健であるべきだと論じている。このテストは当然のことながら、自己評価テストに対する回答がオプションの順序に対して堅牢でないことを明らかにしている。 chatgptとllama2のモデルで行ったこれらの単純なテストは、人間のために作られた自己評価のパーソナリティテストがllmのパーソナリティを測定するのに適していないことを示している。

関連論文リスト

Humanity in AI: Detecting the Personality of Large Language Models [0.0]
アンケートは大規模言語モデル(LLM)の個性を検出する一般的な方法である本稿では,テキストマイニングとアンケート手法の組み合わせを提案する。 LLMのパーソナリティは、事前訓練されたデータから導かれる。
論文参考訳（メタデータ） (2024-10-11T05:53:11Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics [29.325576963215163]
大規模言語モデル(LLM)は会話エージェントとして様々な領域に適応している。 LLMのパーソナリティを評価するために設計された8Kのマルチチョイス質問からなる新しいベンチマークTRAITを紹介する。 LLMは独特で一貫した性格を示し、トレーニングデータの影響を強く受けている。
論文参考訳（メタデータ） (2024-06-20T19:50:56Z)
LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文参考訳（メタデータ） (2024-03-12T12:10:18Z)
Identifying Multiple Personalities in Large Language Models with External Evaluation [6.657168333238573]
大きな言語モデル(LLM)は、人間の日常的なアプリケーションと迅速に統合されます。近年の多くの研究は、人間のために作られた自己評価テストを用いて、LLMの個性を定量化している。しかし、LCMに適用した場合、これらの自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。
論文参考訳（メタデータ） (2024-02-22T18:57:20Z)
Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文参考訳（メタデータ） (2023-11-09T11:54:01Z)
PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2023-10-31T08:23:33Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)
Have Large Language Models Developed a Personality?: Applicability of Self-Assessment Tests in Measuring Personality in LLMs [1.1316247605466567]
言語モデルでパーソナリティを測定するための適切なツールがまだないことを示す。過去の研究は自己評価人格テストを通じてマシンパーソナリティを評価してきた。
論文参考訳（メタデータ） (2023-05-24T03:53:43Z)
Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-01T06:16:14Z)
Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。 MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文参考訳（メタデータ） (2022-05-20T07:32:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。