論文の概要: The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs
- arxiv url: http://arxiv.org/abs/2509.03730v2
- Date: Fri, 05 Sep 2025 01:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 12:28:42.592008
- Title: The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs
- Title(参考訳): パーソナリティ・イリュージョン : LLMにおける自己申告と行動の解離
- Authors: Pengrui Han, Rafal Kocielnik, Peiyang Song, Ramit Debnath, Dean Mobbs, Anima Anandkumar, R. Michael Alvarez,
- Abstract要約: 人格特性は、人間の行動の予測因子として長い間研究されてきた。
近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
- 参考スコア(独自算出の注目度): 60.15472325639723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personality traits have long been studied as predictors of human behavior. Recent advances in Large Language Models (LLMs) suggest similar patterns may emerge in artificial systems, with advanced LLMs displaying consistent behavioral tendencies resembling human traits like agreeableness and self-regulation. Understanding these patterns is crucial, yet prior work primarily relied on simplified self-reports and heuristic prompting, with little behavioral validation. In this study, we systematically characterize LLM personality across three dimensions: (1) the dynamic emergence and evolution of trait profiles throughout training stages; (2) the predictive validity of self-reported traits in behavioral tasks; and (3) the impact of targeted interventions, such as persona injection, on both self-reports and behavior. Our findings reveal that instructional alignment (e.g., RLHF, instruction tuning) significantly stabilizes trait expression and strengthens trait correlations in ways that mirror human data. However, these self-reported traits do not reliably predict behavior, and observed associations often diverge from human patterns. While persona injection successfully steers self-reports in the intended direction, it exerts little or inconsistent effect on actual behavior. By distinguishing surface-level trait expression from behavioral consistency, our findings challenge assumptions about LLM personality and underscore the need for deeper evaluation in alignment and interpretability.
- Abstract(参考訳): 人格特性は、人間の行動の予測因子として長い間研究されてきた。
LLM(Large Language Models)の最近の進歩は、人工システムに類似したパターンが出現しうることを示唆している。
これらのパターンを理解することは極めて重要ですが、以前の作業は主に、振る舞いの検証をほとんど行わずに、単純化された自己報告とヒューリスティックなプロンプトに依存していました。
本研究では,(1)学習段階における特性プロファイルの動的出現と進化,(2)行動課題における自己申告形質の予測的妥当性,(3)自己申告行動と行動の両方に対するペルソナ注入などの目的的介入の影響の3次元にわたって,LLMの性格を体系的に特徴づける。
その結果,命令アライメント (例えばRLHF, 命令チューニング) は特徴表現を著しく安定化させ, 人のデータを反映する特性相関を強くすることがわかった。
しかし、これらの自己報告された特徴は行動を確実に予測することができず、観察された関連性はしばしば人間のパターンから分岐する。
ペルソナ注射は意図した方向への自己申告を成功させる一方で、実際の行動にほとんど、あるいは矛盾しない効果を与える。
表面的特徴表現と行動整合性を区別することにより,LLMの個性に関する仮定に挑戦し,アライメントと解釈可能性のより深い評価の必要性を浮き彫りにした。
関連論文リスト
- Enhancing Personality Recognition by Comparing the Predictive Power of Traits, Facets, and Nuances [37.83859643892549]
パーソナリティ認識モデルは、行動データから性格特性を推定することを目的としている。
モーダル間(音響)とオブジェクト間(ダイアド・アウェア)のアテンション機構を含むトランスフォーマーベースモデルを訓練した。
その結果、ニュアンスレベルのモデルはファセットやトラストレベルのモデルよりも一貫して優れており、平均2乗誤差を最大74%削減できることがわかった。
論文 参考訳(メタデータ) (2026-02-05T13:35:04Z) - Judging with Personality and Confidence: A Study on Personality-Conditioned LLM Relevance Assessment [27.57574817687014]
大きな言語モデル(LLM)は、特定の性格特性をシミュレートし、それらの特徴と一致する振る舞いを生成する。
シミュレーションされた個性が、信頼性の校正、特に過信や過信に対する傾向にどのように影響するかを調査する研究はほとんどない。
低同意性などの個性は、不適切な条件よりも、常に人間のラベルと密に一致していることを示す。
論文 参考訳(メタデータ) (2026-01-05T07:46:29Z) - IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization [66.6349183886101]
IROTEは,安定かつ伝達可能な特性抽出のための新しいインコンテキスト手法である。
IROTEが生成する1つの自己反射は、様々な下流タスクにまたがる目標特性の安定な偽造を LLM が引き起こすことを示す。
論文 参考訳(メタデータ) (2025-08-12T08:04:28Z) - Investigating VLM Hallucination from a Cognitive Psychology Perspective: A First Step Toward Interpretation with Intriguing Observations [60.63340688538124]
幻覚は、視覚言語モデル(VLM)で積極的に研究されている長年の問題である。
既存の研究は、幻覚は技術的な制限や梅毒のバイアスによるもので、後者はモデルがユーザの期待に沿う誤った回答を生み出す傾向があることを意味している。
本研究では, VLMの認知バイアスを分類し, サイコフィナンシー, 論理的不整合, 新たに同定された VLM の行動, 権威へのアピールなど, 幻覚へと導く。
論文 参考訳(メタデータ) (2025-07-03T19:03:16Z) - Evaluating the Simulation of Human Personality-Driven Susceptibility to Misinformation with LLMs [0.18416014644193066]
大規模言語モデル(LLM)により、大規模に合成行動データを生成することができる。
我々は,誤情報に対する個人的影響の変動を再現するために,Big-Fiveプロファイルに規定されたLLMエージェントの能力を評価する。
論文 参考訳(メタデータ) (2025-06-30T08:16:07Z) - A Comparative Study of Large Language Models and Human Personality Traits [6.354326674890978]
言語モデル(LLM)は、言語理解と生成において人間のような能力を示す。
本研究では, LLMが人格的特徴を示すか, これらの特徴が人格とどのように比較されるかを検討する。
論文 参考訳(メタデータ) (2025-05-01T15:10:15Z) - Exploring the Impact of Personality Traits on LLM Bias and Toxicity [34.54047035781886]
個人性が異なる大規模言語モデル(LLM)の「パーソナライゼーション」が研究の関心を集めている。
本研究では, 異なる性格特性をLSMに割り当てることが, アウトプットの毒性やバイアスに与える影響について検討した。
論文 参考訳(メタデータ) (2025-02-18T06:07:09Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - RealBehavior: A Framework for Faithfully Characterizing Foundation
Models' Human-like Behavior Mechanisms [45.97077960079147]
本稿では,モデルのヒューマノイドな振る舞いを忠実に特徴付けるためのフレームワークであるRealBehaviorを紹介する。
本研究は, 心理的ツールのシンプルな応用は, すべての人間の行動に忠実に特徴付けることはできないことを示唆している。
論文 参考訳(メタデータ) (2023-10-17T12:58:17Z) - Dataset Bias in Human Activity Recognition [57.91018542715725]
このコントリビューションは、トレーニングデータを統計的にキュレートし、人間の身体的特性がHARのパフォーマンスにどの程度影響するかを評価する。
時系列HARのセンサ,アクティビティ,記録の異なる2つのHARデータセット上で,最先端の畳み込みニューラルネットワークの性能を評価する。
論文 参考訳(メタデータ) (2023-01-19T12:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。