論文の概要: Revisiting the Reliability of Psychological Scales on Large Language
Models
- arxiv url: http://arxiv.org/abs/2305.19926v3
- Date: Thu, 28 Dec 2023 13:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 23:02:32.461803
- Title: Revisiting the Reliability of Psychological Scales on Large Language
Models
- Title(参考訳): 大規模言語モデルにおける心理的尺度の信頼性の再検討
- Authors: Jen-tse Huang, Wenxuan Wang, Man Ho Lam, Eric John Li, Wenxiang Jiao,
Michael R. Lyu
- Abstract要約: 本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
- 参考スコア(独自算出の注目度): 66.31055885857062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has extended beyond assessing the performance of Large
Language Models (LLMs) to examining their characteristics from a psychological
standpoint, acknowledging the necessity of understanding their behavioral
characteristics. The administration of personality tests to LLMs has emerged as
a noteworthy area in this context. However, the suitability of employing
psychological scales, initially devised for humans, on LLMs is a matter of
ongoing debate. Our study aims to determine the reliability of applying
personality assessments to LLMs, explicitly investigating whether LLMs
demonstrate consistent personality traits. Analyzing responses under 2,500
settings reveals that gpt-3.5-turbo shows consistency in responses to the Big
Five Inventory, indicating a high degree of reliability. Furthermore, our
research explores the potential of gpt-3.5-turbo to emulate diverse
personalities and represent various groups, which is a capability increasingly
sought after in social sciences for substituting human participants with LLMs
to reduce costs. Our findings reveal that LLMs have the potential to represent
different personalities with specific prompt instructions. By shedding light on
the personalization of LLMs, our study endeavors to pave the way for future
explorations in this field. We have made our experimental results and the
corresponding code openly accessible via
https://github.com/CUHK-ARISE/LLMPersonality.
- Abstract(参考訳): 最近の研究は、大規模言語モデル(LLM)の性能を評価することを超えて、心理学的観点からそれらの特性を検証し、その行動特性を理解する必要性を認識している。
LLMに対するパーソナリティテストの管理は、この文脈で注目に値する分野となっている。
しかしながら、当初人間のために考案された心理学的尺度をLSMに採用する適性は、現在進行中の議論である。
本研究の目的は, LLM が一貫した性格特性を示すか否かを, LLM にパーソナリティアセスメントを適用することの信頼性を判断することである。
gpt-3.5-turboは,大きな5つのインベントリに対する応答の一貫性を示し,高い信頼性を示す。
さらに,gpt-3.5-turboが多様な人格をエミュレートし,様々なグループを表現できる可能性についても検討した。
以上の結果から,LSMは特定の指示で異なる個人性を表現できる可能性が示唆された。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
実験結果と対応するコードはhttps://github.com/CUHK-ARISE/LLMPersonality.comで公開しています。
関連論文リスト
- LMLPA: Language Model Linguistic Personality Assessment [11.599282127259736]
大規模言語モデル(LLM)は、日常の生活や研究にますます利用されている。
与えられたLLMの性格を測定することは、現在課題である。
言語モデル言語パーソナリティアセスメント(LMLPA)は,LLMの言語的パーソナリティを評価するシステムである。
論文 参考訳(メタデータ) (2024-10-23T07:48:51Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Is Cognition and Action Consistent or Not: Investigating Large Language
Model's Personality [12.162460438332152]
本研究では,人格質問紙に対する回答を通じて,人格特性の証明における言語モデル(LLM)の信頼性について検討した。
我々のゴールは、LLMの人格傾向と実際の「行動」との整合性を評価することである。
本研究では,心理学的理論とメトリクスに基づく観察結果の仮説を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:32:08Z) - LLMs Simulate Big Five Personality Traits: Further Evidence [51.13560635563004]
Llama2, GPT4, Mixtralでシミュレートされた性格特性を解析した。
このことは、パーソナリティ特性をシミュレートするLLMの能力のより広範な理解に寄与する。
論文 参考訳(メタデータ) (2024-01-31T13:45:25Z) - Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。
人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文 参考訳(メタデータ) (2023-11-09T11:54:01Z) - Understanding Social Reasoning in Language Models with Language Models [34.068368860882586]
本稿では,因果テンプレートを投入することにより,Large Language Models (LLM) による評価を生成する新しいフレームワークを提案する。
LLMのための新しいソーシャル推論ベンチマーク(BigToM)を作成し、25のコントロールと5000のモデル記述評価からなる。
ヒトの被験者は、これまでのクラウドソースによる評価よりもベンチマークの質を高く評価し、専門家による評価に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:42:15Z) - PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits [30.770525830385637]
本研究では,ビッグファイブ・パーソナリティ・モデルに基づく大規模言語モデル(LLM)の行動について検討する。
その結果, LLMペルソナの自己申告したBFIスコアは, 指定した性格タイプと一致していることがわかった。
人間の評価は、人間は最大80%の精度でいくつかの性格特性を知覚できることを示している。
論文 参考訳(メタデータ) (2023-05-04T04:58:00Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。