論文の概要: Have Large Language Models Developed a Personality?: Applicability of
Self-Assessment Tests in Measuring Personality in LLMs
- arxiv url: http://arxiv.org/abs/2305.14693v1
- Date: Wed, 24 May 2023 03:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:58:29.431606
- Title: Have Large Language Models Developed a Personality?: Applicability of
Self-Assessment Tests in Measuring Personality in LLMs
- Title(参考訳): 大規模言語モデルはパーソナリティを発達したか?
llmsにおける自己評価テストの性格測定への適用性
- Authors: Xiaoyang Song, Akshat Gupta, Kiyan Mohebbizadeh, Shujie Hu, Anant
Singh
- Abstract要約: 言語モデルでパーソナリティを測定するための適切なツールがまだないことを示す。
過去の研究は自己評価人格テストを通じてマシンパーソナリティを評価してきた。
- 参考スコア(独自算出の注目度): 1.1316247605466567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Have Large Language Models (LLMs) developed a personality? The short answer
is a resounding "We Don't Know!". In this paper, we show that we do not yet
have the right tools to measure personality in language models. Personality is
an important characteristic that influences behavior. As LLMs emulate
human-like intelligence and performance in various tasks, a natural question to
ask is whether these models have developed a personality. Previous works have
evaluated machine personality through self-assessment personality tests, which
are a set of multiple-choice questions created to evaluate personality in
humans. A fundamental assumption here is that human personality tests can
accurately measure personality in machines. In this paper, we investigate the
emergence of personality in five LLMs of different sizes ranging from 1.5B to
30B. We propose the Option-Order Symmetry property as a necessary condition for
the reliability of these self-assessment tests. Under this condition, the
answer to self-assessment questions is invariant to the order in which the
options are presented. We find that many LLMs personality test responses do not
preserve option-order symmetry. We take a deeper look at LLMs test responses
where option-order symmetry is preserved to find that in these cases, LLMs do
not take into account the situational statement being tested and produce the
exact same answer irrespective of the situation being tested. We also identify
the existence of inherent biases in these LLMs which is the root cause of the
aforementioned phenomenon and makes self-assessment tests unreliable. These
observations indicate that self-assessment tests are not the correct tools to
measure personality in LLMs. Through this paper, we hope to draw attention to
the shortcomings of current literature in measuring personality in LLMs and
call for developing tools for machine personality measurement.
- Abstract(参考訳): 大規模言語モデル(llm)はパーソナリティを発達させたか?
短い答えは、"We Don't Know!
本稿では,言語モデルにおけるパーソナリティを測定するための適切なツールがまだないことを示す。
性格は行動に影響を及ぼす重要な特徴である。
LLMは、様々なタスクにおける人間のような知性とパフォーマンスをエミュレートするので、これらのモデルがパーソナリティを発達させたかどうかが疑問である。
従来の研究では、自己評価パーソナリティテスト (self-assessment personality test) によって機械のパーソナリティを評価する。
ここでの基本的な仮定は、人間のパーソナリティテストは機械のパーソナリティを正確に測定できるということである。
本稿では,1.5Bから30Bの異なる5種類のLDMにおける個性の出現について検討する。
本稿では,これらの自己評価テストの信頼性に必要条件として,オプション次対称性を提案する。
この条件下では、自己評価問題に対する答えは、選択肢が提示される順序に不変である。
LLMの個性検査応答の多くはオプション次対称性を保たない。
これらのケースでは、LLMはテスト中の状況条件を考慮せず、テスト中の状況に関係なく全く同じ回答を生成する。
また、上記の現象の根本原因であるこれらのLSMに固有のバイアスが存在することも確認し、自己評価テストの信頼性を損なう。
これらの結果から,自己評価テストはLLMの性格測定の正しい方法ではないことが示唆された。
本稿では,llmにおけるパーソナリティ測定における現在の文献の欠点に留意し,機械のパーソナリティ計測のためのツールの開発を目指す。
関連論文リスト
- Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics [29.325576963215163]
大規模言語モデル(LLM)は会話エージェントとして様々な領域に適応している。
LLMのパーソナリティを評価するために設計された8Kのマルチチョイス質問からなる新しいベンチマークTRAITを紹介する。
LLMは独特で一貫した性格を示し、トレーニングデータの影響を強く受けている。
論文 参考訳(メタデータ) (2024-06-20T19:50:56Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - Identifying Multiple Personalities in Large Language Models with
External Evaluation [6.657168333238573]
大きな言語モデル(LLM)は、人間の日常的なアプリケーションと迅速に統合されます。
近年の多くの研究は、人間のために作られた自己評価テストを用いて、LLMの個性を定量化している。
しかし、LCMに適用した場合、これらの自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。
論文 参考訳(メタデータ) (2024-02-22T18:57:20Z) - Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。
人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文 参考訳(メタデータ) (2023-11-09T11:54:01Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Editing Personality for Large Language Models [73.59001811199823]
本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。
このタスクに対処する新しいベンチマークデータセットであるPersonalityEditを構築します。
論文 参考訳(メタデータ) (2023-10-03T16:02:36Z) - Self-Assessment Tests are Unreliable Measures of LLM Personality [2.887477629420772]
2つの簡単な実験により自己評価人格検査から得られた人格スコアの信頼性を分析した。
これら3つのプロンプトが全く異なるパーソナリティスコアにつながり、これはほとんどのシナリオにおいて、すべての特性に対して統計的に重要な違いである。
自己評価テストの多くは、多重選択質問(MCQ)の形で存在するので、選択肢が提示される順序に対して、スコアも堅牢であるべきだと論じる。
論文 参考訳(メタデータ) (2023-09-15T05:19:39Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。