論文の概要: Identifying Multiple Personalities in Large Language Models with
External Evaluation
- arxiv url: http://arxiv.org/abs/2402.14805v1
- Date: Thu, 22 Feb 2024 18:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 13:53:23.893654
- Title: Identifying Multiple Personalities in Large Language Models with
External Evaluation
- Title(参考訳): 外部評価による大規模言語モデルにおける複数個性同定
- Authors: Xiaoyang Song, Yuta Adachi, Jessie Feng, Mouwei Lin, Linhao Yu, Frank
Li, Akshat Gupta, Gopala Anumanchipalli, Simerjot Kaur
- Abstract要約: 大きな言語モデル(LLM)は、人間の日常的なアプリケーションと迅速に統合されます。
近年の多くの研究は、人間のために作られた自己評価テストを用いて、LLMの個性を定量化している。
しかし、LCMに適用した場合、これらの自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。
- 参考スコア(独自算出の注目度): 6.657168333238573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) are integrated with human daily applications
rapidly, many societal and ethical concerns are raised regarding the behavior
of LLMs. One of the ways to comprehend LLMs' behavior is to analyze their
personalities. Many recent studies quantify LLMs' personalities using
self-assessment tests that are created for humans. Yet many critiques question
the applicability and reliability of these self-assessment tests when applied
to LLMs. In this paper, we investigate LLM personalities using an alternate
personality measurement method, which we refer to as the external evaluation
method, where instead of prompting LLMs with multiple-choice questions in the
Likert scale, we evaluate LLMs' personalities by analyzing their responses
toward open-ended situational questions using an external machine learning
model. We first fine-tuned a Llama2-7B model as the MBTI personality predictor
that outperforms the state-of-the-art models as the tool to analyze LLMs'
responses. Then, we prompt the LLMs with situational questions and ask them to
generate Twitter posts and comments, respectively, in order to assess their
personalities when playing two different roles. Using the external personality
evaluation method, we identify that the obtained personality types for LLMs are
significantly different when generating posts versus comments, whereas humans
show a consistent personality profile in these two different situations. This
shows that LLMs can exhibit different personalities based on different
scenarios, thus highlighting a fundamental difference between personality in
LLMs and humans. With our work, we call for a re-evaluation of personality
definition and measurement in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の日常的アプリケーションと急速に統合されているため、LLMの振る舞いに関する社会的・倫理的懸念が数多く提起されている。
LLMの振る舞いを理解する方法の1つは、個性を分析することである。
近年の多くの研究は、人間のために作られた自己評価テストを用いてLLMの個性を定量化している。
しかし、LCMに適用した場合の自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。
本稿では,対外的評価法として,対外的評価法として,対外的評価法として,対外的評価法を用いてllmの個性について検討し,対外的機械学習モデルを用いて,対外的質問に対する応答を解析し,対人的個性を評価する。
我々はまず,Llama2-7BモデルをMBTI性格予測器として微調整し,LLMの応答を解析するためのツールとして最先端モデルより優れていた。
次に,2つの異なる役割を演じる際の個性を評価するために,llmに状況質問を促し,それぞれtwitterの投稿やコメントを生成するように依頼する。
外部人格評価手法を用いて、投稿とコメントの生成においてLLMの人格タイプが著しく異なるのに対して、人間は2つの異なる状況において一貫した人格プロファイルを示す。
これは、llmが異なるシナリオに基づいて異なるパーソナリティを示すことができることを示し、llmと人間のパーソナリティの根本的な違いを浮き彫りにする。
本研究では,LLMにおける人格定義と測定の再評価を求める。
関連論文リスト
- PHAnToM: Personality Has An Effect on Theory-of-Mind Reasoning in Large Language Models [25.657579792829743]
本研究では,大規模言語モデルにおけるパーソナリティの誘導が,理論・オブ・ミンド(ToM)推論能力にどのように影響するかを検討する。
3種類のToMタスクにおいて,特定の個人性がLLMの推論能力に大きな影響を与えることが判明した。
ToMにおけるパーソナリティプロンプトのばらつきを示すLCMは、パーソナリティテストにおいてより制御しやすい傾向にある。
論文 参考訳(メタデータ) (2024-03-04T17:34:34Z) - Is Cognition and Action Consistent or Not: Investigating Large Language
Model's Personality [12.162460438332152]
本研究では,人格質問紙に対する回答を通じて,人格特性の証明における言語モデル(LLM)の信頼性について検討した。
我々のゴールは、LLMの人格傾向と実際の「行動」との整合性を評価することである。
本研究では,心理学的理論とメトリクスに基づく観察結果の仮説を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:32:08Z) - Illuminating the Black Box: A Psychometric Investigation into the
Multifaceted Nature of Large Language Models [3.692410936160711]
本研究では,AIパーソナリティやAInalityの概念を探求し,Large Language Models(LLM)が人間のパーソナリティに似たパターンを示すことを示唆する。
プロジェクティブテストを用いて,直接質問を通じて容易にはアクセスできないLLM個性の隠れた側面を明らかにする。
機械学習解析の結果,LSMは異なるAinality特性を示し,多様な性格型を示し,外的指示に応答して動的に変化を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-12-21T04:57:21Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Self-Assessment Tests are Unreliable Measures of LLM Personality [2.887477629420772]
2つの簡単な実験により自己評価人格検査から得られた人格スコアの信頼性を分析した。
これら3つのプロンプトが全く異なるパーソナリティスコアにつながり、これはほとんどのシナリオにおいて、すべての特性に対して統計的に重要な違いである。
自己評価テストの多くは、多重選択質問(MCQ)の形で存在するので、選択肢が提示される順序に対して、スコアも堅牢であるべきだと論じる。
論文 参考訳(メタデータ) (2023-09-15T05:19:39Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
我々は,Large Language Models (LLM) の共感能力を評価することを提案する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Do LLMs Possess a Personality? Making the MBTI Test an Amazing
Evaluation for Large Language Models [2.918940961856197]
我々は,大規模言語モデル(LLM)の評価指標として,人格評価ツールであるMBTI(Myers-Briggs Type Indicator)の有効性を検討することを目的とする。
具体的には,1)異なるLDMの性格タイプ,2)素早いエンジニアリングによる人格タイプの変化の可能性,3)モデルの性格にどのような影響があるかを検討する。
論文 参考訳(メタデータ) (2023-07-30T09:34:35Z) - Revisiting the Reliability of Psychological Scales on Large Language
Models [66.31055885857062]
本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - In-Context Impersonation Reveals Large Language Models' Strengths and
Biases [56.61129643802483]
我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。
異なる年齢の子どものふりをしたLSMが、ヒトのような発達段階を回復することがわかった。
言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-24T09:13:15Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。