論文の概要: Identifying Multiple Personalities in Large Language Models with
External Evaluation
- arxiv url: http://arxiv.org/abs/2402.14805v1
- Date: Thu, 22 Feb 2024 18:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 13:53:23.893654
- Title: Identifying Multiple Personalities in Large Language Models with
External Evaluation
- Title(参考訳): 外部評価による大規模言語モデルにおける複数個性同定
- Authors: Xiaoyang Song, Yuta Adachi, Jessie Feng, Mouwei Lin, Linhao Yu, Frank
Li, Akshat Gupta, Gopala Anumanchipalli, Simerjot Kaur
- Abstract要約: 大きな言語モデル(LLM)は、人間の日常的なアプリケーションと迅速に統合されます。
近年の多くの研究は、人間のために作られた自己評価テストを用いて、LLMの個性を定量化している。
しかし、LCMに適用した場合、これらの自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。
- 参考スコア(独自算出の注目度): 6.657168333238573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) are integrated with human daily applications
rapidly, many societal and ethical concerns are raised regarding the behavior
of LLMs. One of the ways to comprehend LLMs' behavior is to analyze their
personalities. Many recent studies quantify LLMs' personalities using
self-assessment tests that are created for humans. Yet many critiques question
the applicability and reliability of these self-assessment tests when applied
to LLMs. In this paper, we investigate LLM personalities using an alternate
personality measurement method, which we refer to as the external evaluation
method, where instead of prompting LLMs with multiple-choice questions in the
Likert scale, we evaluate LLMs' personalities by analyzing their responses
toward open-ended situational questions using an external machine learning
model. We first fine-tuned a Llama2-7B model as the MBTI personality predictor
that outperforms the state-of-the-art models as the tool to analyze LLMs'
responses. Then, we prompt the LLMs with situational questions and ask them to
generate Twitter posts and comments, respectively, in order to assess their
personalities when playing two different roles. Using the external personality
evaluation method, we identify that the obtained personality types for LLMs are
significantly different when generating posts versus comments, whereas humans
show a consistent personality profile in these two different situations. This
shows that LLMs can exhibit different personalities based on different
scenarios, thus highlighting a fundamental difference between personality in
LLMs and humans. With our work, we call for a re-evaluation of personality
definition and measurement in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の日常的アプリケーションと急速に統合されているため、LLMの振る舞いに関する社会的・倫理的懸念が数多く提起されている。
LLMの振る舞いを理解する方法の1つは、個性を分析することである。
近年の多くの研究は、人間のために作られた自己評価テストを用いてLLMの個性を定量化している。
しかし、LCMに適用した場合の自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。
本稿では,対外的評価法として,対外的評価法として,対外的評価法として,対外的評価法を用いてllmの個性について検討し,対外的機械学習モデルを用いて,対外的質問に対する応答を解析し,対人的個性を評価する。
我々はまず,Llama2-7BモデルをMBTI性格予測器として微調整し,LLMの応答を解析するためのツールとして最先端モデルより優れていた。
次に,2つの異なる役割を演じる際の個性を評価するために,llmに状況質問を促し,それぞれtwitterの投稿やコメントを生成するように依頼する。
外部人格評価手法を用いて、投稿とコメントの生成においてLLMの人格タイプが著しく異なるのに対して、人間は2つの異なる状況において一貫した人格プロファイルを示す。
これは、llmが異なるシナリオに基づいて異なるパーソナリティを示すことができることを示し、llmと人間のパーソナリティの根本的な違いを浮き彫りにする。
本研究では,LLMにおける人格定義と測定の再評価を求める。
関連論文リスト
- LMLPA: Language Model Linguistic Personality Assessment [11.599282127259736]
大規模言語モデル(LLM)は、日常の生活や研究にますます利用されている。
与えられたLLMの性格を測定することは、現在課題である。
言語モデル言語パーソナリティアセスメント(LMLPA)は,LLMの言語的パーソナリティを評価するシステムである。
論文 参考訳(メタデータ) (2024-10-23T07:48:51Z) - LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。
本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。
確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文 参考訳(メタデータ) (2024-07-03T17:08:52Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics [29.325576963215163]
大規模言語モデル(LLM)は会話エージェントとして様々な領域に適応している。
LLMのパーソナリティを評価するために設計された8Kのマルチチョイス質問からなる新しいベンチマークTRAITを紹介する。
LLMは独特で一貫した性格を示し、トレーニングデータの影響を強く受けている。
論文 参考訳(メタデータ) (2024-06-20T19:50:56Z) - Open Models, Closed Minds? On Agents Capabilities in Mimicking Human Personalities through Open Large Language Models [4.742123770879715]
この研究は、オープンLLMのレンズを通して、NLPと人間の心理学の密接な関係を理解するための一歩である。
提案手法は,オープンLLMエージェントの本質的な性格特性を評価し,これらのエージェントが人格を模倣する程度を判断する。
論文 参考訳(メタデータ) (2024-01-13T16:41:40Z) - Illuminating the Black Box: A Psychometric Investigation into the
Multifaceted Nature of Large Language Models [3.692410936160711]
本研究では,AIパーソナリティやAInalityの概念を探求し,Large Language Models(LLM)が人間のパーソナリティに似たパターンを示すことを示唆する。
プロジェクティブテストを用いて,直接質問を通じて容易にはアクセスできないLLM個性の隠れた側面を明らかにする。
機械学習解析の結果,LSMは異なるAinality特性を示し,多様な性格型を示し,外的指示に応答して動的に変化を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-12-21T04:57:21Z) - Do LLMs Possess a Personality? Making the MBTI Test an Amazing
Evaluation for Large Language Models [2.918940961856197]
我々は,大規模言語モデル(LLM)の評価指標として,人格評価ツールであるMBTI(Myers-Briggs Type Indicator)の有効性を検討することを目的とする。
具体的には,1)異なるLDMの性格タイプ,2)素早いエンジニアリングによる人格タイプの変化の可能性,3)モデルの性格にどのような影響があるかを検討する。
論文 参考訳(メタデータ) (2023-07-30T09:34:35Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - In-Context Impersonation Reveals Large Language Models' Strengths and
Biases [56.61129643802483]
我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。
異なる年齢の子どものふりをしたLSMが、ヒトのような発達段階を回復することがわかった。
言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-24T09:13:15Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。