論文の概要: Do personality tests generalize to Large Language Models?
- arxiv url: http://arxiv.org/abs/2311.05297v1
- Date: Thu, 9 Nov 2023 11:54:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 15:28:42.673020
- Title: Do personality tests generalize to Large Language Models?
- Title(参考訳): パーソナリティテストは大規模言語モデルに一般化するか?
- Authors: Florian E. Dorner, Tom S\"uhr, Samira Samadi, Augustin Kelava
- Abstract要約: 大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞うようにみえる。
異なる試験の妥当性が LLM にどの程度一般化するかは明らかになっていない。
人格検査に対するLSMの反応が、典型的な人間の反応から体系的に逸脱している証拠を提供する。
- 参考スコア(独自算出の注目度): 2.85386288555414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With large language models (LLMs) appearing to behave increasingly human-like
in text-based interactions, it has become popular to attempt to evaluate
various properties of these models using tests originally designed for humans.
While re-using existing tests is a resource-efficient way to evaluate LLMs,
careful adjustments are usually required to ensure that test results are even
valid across human sub-populations. Thus, it is not clear to what extent
different tests' validity generalizes to LLMs. In this work, we provide
evidence that LLMs' responses to personality tests systematically deviate from
typical human responses, implying that these results cannot be interpreted in
the same way as human test results. Concretely, reverse-coded items (e.g. "I am
introverted" vs "I am extraverted") are often both answered affirmatively by
LLMs. In addition, variation across different prompts designed to "steer" LLMs
to simulate particular personality types does not follow the clear separation
into five independent personality factors from human samples. In light of these
results, we believe it is important to pay more attention to tests' validity
for LLMs before drawing strong conclusions about potentially ill-defined
concepts like LLMs' "personality".
- Abstract(参考訳): 大きな言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞うように見え、もともと人間用に設計されたテストを使用して、これらのモデルの様々な特性を評価する試みが一般的になっている。
既存のテストの再使用はllmを評価するのにリソース効率の良い方法であるが、通常、テスト結果が人間のサブ人口間でも有効であることを保証するために注意深い調整が必要である。
したがって、異なる試験の妥当性が LLM にどの程度一般化するかは明らかでない。
本研究は,人格検査に対するllmsの反応がヒトの典型的な反応から系統的に逸脱していることを示し,これらの結果がヒトの検査結果と同じような方法で解釈できないことを示唆する。
具体的には、逆符号の項目(例えば、"i am introverted" と "i am extraverted")はどちらも llms によって肯定的に答えられる。
加えて、特定の個性タイプをシミュレートするためにLLMを「操る」ために設計された異なるプロンプトのバリエーションは、人間のサンプルから5つの独立した個性要素に明確に分離するものではない。
これらの結果を踏まえ、LLMの「個性」のような潜在的に不明確な概念について強い結論を出す前に、LSMに対するテストの有効性にもっと注意を払うことが重要であると信じている。
関連論文リスト
- LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Illuminating the Black Box: A Psychometric Investigation into the
Multifaceted Nature of Large Language Models [3.692410936160711]
本研究では,AIパーソナリティやAInalityの概念を探求し,Large Language Models(LLM)が人間のパーソナリティに似たパターンを示すことを示唆する。
プロジェクティブテストを用いて,直接質問を通じて容易にはアクセスできないLLM個性の隠れた側面を明らかにする。
機械学習解析の結果,LSMは異なるAinality特性を示し,多様な性格型を示し,外的指示に応答して動的に変化を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-12-21T04:57:21Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Self-Assessment Tests are Unreliable Measures of LLM Personality [2.887477629420772]
2つの簡単な実験により自己評価人格検査から得られた人格スコアの信頼性を分析した。
これら3つのプロンプトが全く異なるパーソナリティスコアにつながり、これはほとんどのシナリオにおいて、すべての特性に対して統計的に重要な違いである。
自己評価テストの多くは、多重選択質問(MCQ)の形で存在するので、選択肢が提示される順序に対して、スコアも堅牢であるべきだと論じる。
論文 参考訳(メタデータ) (2023-09-15T05:19:39Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Revisiting the Reliability of Psychological Scales on Large Language
Models [66.31055885857062]
本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。