Fugu-MT 論文翻訳(概要): Have Large Language Models Developed a Personality?: Applicability of Self-Assessment Tests in Measuring Personality in LLMs

論文の概要: Have Large Language Models Developed a Personality?: Applicability of Self-Assessment Tests in Measuring Personality in LLMs

arxiv url: http://arxiv.org/abs/2305.14693v1
Date: Wed, 24 May 2023 03:53:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 19:58:29.431606
Title: Have Large Language Models Developed a Personality?: Applicability of Self-Assessment Tests in Measuring Personality in LLMs
Title（参考訳）: 大規模言語モデルはパーソナリティを発達したか? llmsにおける自己評価テストの性格測定への適用性
Authors: Xiaoyang Song, Akshat Gupta, Kiyan Mohebbizadeh, Shujie Hu, Anant Singh
Abstract要約: 言語モデルでパーソナリティを測定するための適切なツールがまだないことを示す。過去の研究は自己評価人格テストを通じてマシンパーソナリティを評価してきた。
参考スコア（独自算出の注目度）: 1.1316247605466567
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Have Large Language Models (LLMs) developed a personality? The short answer is a resounding "We Don't Know!". In this paper, we show that we do not yet have the right tools to measure personality in language models. Personality is an important characteristic that influences behavior. As LLMs emulate human-like intelligence and performance in various tasks, a natural question to ask is whether these models have developed a personality. Previous works have evaluated machine personality through self-assessment personality tests, which are a set of multiple-choice questions created to evaluate personality in humans. A fundamental assumption here is that human personality tests can accurately measure personality in machines. In this paper, we investigate the emergence of personality in five LLMs of different sizes ranging from 1.5B to 30B. We propose the Option-Order Symmetry property as a necessary condition for the reliability of these self-assessment tests. Under this condition, the answer to self-assessment questions is invariant to the order in which the options are presented. We find that many LLMs personality test responses do not preserve option-order symmetry. We take a deeper look at LLMs test responses where option-order symmetry is preserved to find that in these cases, LLMs do not take into account the situational statement being tested and produce the exact same answer irrespective of the situation being tested. We also identify the existence of inherent biases in these LLMs which is the root cause of the aforementioned phenomenon and makes self-assessment tests unreliable. These observations indicate that self-assessment tests are not the correct tools to measure personality in LLMs. Through this paper, we hope to draw attention to the shortcomings of current literature in measuring personality in LLMs and call for developing tools for machine personality measurement.
Abstract（参考訳）: 大規模言語モデル(llm)はパーソナリティを発達させたか? 短い答えは、"We Don't Know! 本稿では,言語モデルにおけるパーソナリティを測定するための適切なツールがまだないことを示す。性格は行動に影響を及ぼす重要な特徴である。 LLMは、様々なタスクにおける人間のような知性とパフォーマンスをエミュレートするので、これらのモデルがパーソナリティを発達させたかどうかが疑問である。従来の研究では、自己評価パーソナリティテスト (self-assessment personality test) によって機械のパーソナリティを評価する。ここでの基本的な仮定は、人間のパーソナリティテストは機械のパーソナリティを正確に測定できるということである。本稿では,1.5Bから30Bの異なる5種類のLDMにおける個性の出現について検討する。本稿では,これらの自己評価テストの信頼性に必要条件として,オプション次対称性を提案する。この条件下では、自己評価問題に対する答えは、選択肢が提示される順序に不変である。 LLMの個性検査応答の多くはオプション次対称性を保たない。これらのケースでは、LLMはテスト中の状況条件を考慮せず、テスト中の状況に関係なく全く同じ回答を生成する。また、上記の現象の根本原因であるこれらのLSMに固有のバイアスが存在することも確認し、自己評価テストの信頼性を損なう。これらの結果から,自己評価テストはLLMの性格測定の正しい方法ではないことが示唆された。本稿では,llmにおけるパーソナリティ測定における現在の文献の欠点に留意し,機械のパーソナリティ計測のためのツールの開発を目指す。

関連論文リスト

Evaluating Personality Traits in Large Language Models: Insights from Psychological Questionnaires [3.6001840369062386]
この研究は、多種多様なシナリオにおける大規模言語モデルに心理学的ツールを適用し、パーソナリティプロファイルを生成する。以上の結果から, LLMは, 同一モデル群においても, 特徴, 特徴, 性格の異なる特徴を示すことが明らかとなった。
論文参考訳（メタデータ） (2025-02-07T16:12:52Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics [29.325576963215163]
大規模言語モデル(LLM)は会話エージェントとして様々な領域に適応している。 LLMのパーソナリティを評価するために設計された8Kのマルチチョイス質問からなる新しいベンチマークTRAITを紹介する。 LLMは独特で一貫した性格を示し、トレーニングデータの影響を強く受けている。
論文参考訳（メタデータ） (2024-06-20T19:50:56Z)
LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文参考訳（メタデータ） (2024-03-12T12:10:18Z)
Identifying Multiple Personalities in Large Language Models with External Evaluation [6.657168333238573]
大きな言語モデル(LLM)は、人間の日常的なアプリケーションと迅速に統合されます。近年の多くの研究は、人間のために作られた自己評価テストを用いて、LLMの個性を定量化している。しかし、LCMに適用した場合、これらの自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。
論文参考訳（メタデータ） (2024-02-22T18:57:20Z)
Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文参考訳（メタデータ） (2023-11-09T11:54:01Z)
PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2023-10-31T08:23:33Z)
Editing Personality for Large Language Models [73.59001811199823]
本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。このタスクに対処する新しいベンチマークデータセットであるPersonalityEditを構築します。
論文参考訳（メタデータ） (2023-10-03T16:02:36Z)
Self-Assessment Tests are Unreliable Measures of LLM Personality [2.887477629420772]
2つの簡単な実験により自己評価人格検査から得られた人格スコアの信頼性を分析した。これら3つのプロンプトが全く異なるパーソナリティスコアにつながり、これはほとんどのシナリオにおいて、すべての特性に対して統計的に重要な違いである。自己評価テストの多くは、多重選択質問(MCQ)の形で存在するので、選択肢が提示される順序に対して、スコアも堅牢であるべきだと論じる。
論文参考訳（メタデータ） (2023-09-15T05:19:39Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)
Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。 MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文参考訳（メタデータ） (2022-05-20T07:32:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。