Fugu-MT 論文翻訳(概要): The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs

論文の概要: The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs

arxiv url: http://arxiv.org/abs/2509.03730v2
Date: Fri, 05 Sep 2025 01:39:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-08 12:28:42.592008
Title: The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs
Title（参考訳）: パーソナリティ・イリュージョン : LLMにおける自己申告と行動の解離
Authors: Pengrui Han, Rafal Kocielnik, Peiyang Song, Ramit Debnath, Dean Mobbs, Anima Anandkumar, R. Michael Alvarez,
Abstract要約: 人格特性は、人間の行動の予測因子として長い間研究されてきた。近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
参考スコア（独自算出の注目度）: 60.15472325639723
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Personality traits have long been studied as predictors of human behavior. Recent advances in Large Language Models (LLMs) suggest similar patterns may emerge in artificial systems, with advanced LLMs displaying consistent behavioral tendencies resembling human traits like agreeableness and self-regulation. Understanding these patterns is crucial, yet prior work primarily relied on simplified self-reports and heuristic prompting, with little behavioral validation. In this study, we systematically characterize LLM personality across three dimensions: (1) the dynamic emergence and evolution of trait profiles throughout training stages; (2) the predictive validity of self-reported traits in behavioral tasks; and (3) the impact of targeted interventions, such as persona injection, on both self-reports and behavior. Our findings reveal that instructional alignment (e.g., RLHF, instruction tuning) significantly stabilizes trait expression and strengthens trait correlations in ways that mirror human data. However, these self-reported traits do not reliably predict behavior, and observed associations often diverge from human patterns. While persona injection successfully steers self-reports in the intended direction, it exerts little or inconsistent effect on actual behavior. By distinguishing surface-level trait expression from behavioral consistency, our findings challenge assumptions about LLM personality and underscore the need for deeper evaluation in alignment and interpretability.
Abstract（参考訳）: 人格特性は、人間の行動の予測因子として長い間研究されてきた。 LLM(Large Language Models)の最近の進歩は、人工システムに類似したパターンが出現しうることを示唆している。これらのパターンを理解することは極めて重要ですが、以前の作業は主に、振る舞いの検証をほとんど行わずに、単純化された自己報告とヒューリスティックなプロンプトに依存していました。本研究では,(1)学習段階における特性プロファイルの動的出現と進化,(2)行動課題における自己申告形質の予測的妥当性,(3)自己申告行動と行動の両方に対するペルソナ注入などの目的的介入の影響の3次元にわたって,LLMの性格を体系的に特徴づける。その結果,命令アライメント (例えばRLHF, 命令チューニング) は特徴表現を著しく安定化させ, 人のデータを反映する特性相関を強くすることがわかった。しかし、これらの自己報告された特徴は行動を確実に予測することができず、観察された関連性はしばしば人間のパターンから分岐する。ペルソナ注射は意図した方向への自己申告を成功させる一方で、実際の行動にほとんど、あるいは矛盾しない効果を与える。表面的特徴表現と行動整合性を区別することにより,LLMの個性に関する仮定に挑戦し,アライメントと解釈可能性のより深い評価の必要性を浮き彫りにした。

関連論文リスト

IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization [66.6349183886101]
IROTEは,安定かつ伝達可能な特性抽出のための新しいインコンテキスト手法である。 IROTEが生成する1つの自己反射は、様々な下流タスクにまたがる目標特性の安定な偽造を LLM が引き起こすことを示す。
論文参考訳（メタデータ） (2025-08-12T08:04:28Z)
Evaluating the Simulation of Human Personality-Driven Susceptibility to Misinformation with LLMs [0.18416014644193066]
大規模言語モデル(LLM)により、大規模に合成行動データを生成することができる。我々は,誤情報に対する個人的影響の変動を再現するために,Big-Fiveプロファイルに規定されたLLMエージェントの能力を評価する。
論文参考訳（メタデータ） (2025-06-30T08:16:07Z)
A Comparative Study of Large Language Models and Human Personality Traits [6.354326674890978]
言語モデル(LLM)は、言語理解と生成において人間のような能力を示す。本研究では, LLMが人格的特徴を示すか, これらの特徴が人格とどのように比較されるかを検討する。
論文参考訳（メタデータ） (2025-05-01T15:10:15Z)
Exploring the Impact of Personality Traits on LLM Bias and Toxicity [34.54047035781886]
個人性が異なる大規模言語モデル(LLM)の「パーソナライゼーション」が研究の関心を集めている。本研究では, 異なる性格特性をLSMに割り当てることが, アウトプットの毒性やバイアスに与える影響について検討した。
論文参考訳（メタデータ） (2025-02-18T06:07:09Z)
PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文参考訳（メタデータ） (2024-07-17T08:13:22Z)
LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文参考訳（メタデータ） (2024-03-12T12:10:18Z)
RealBehavior: A Framework for Faithfully Characterizing Foundation Models' Human-like Behavior Mechanisms [45.97077960079147]
本稿では,モデルのヒューマノイドな振る舞いを忠実に特徴付けるためのフレームワークであるRealBehaviorを紹介する。本研究は, 心理的ツールのシンプルな応用は, すべての人間の行動に忠実に特徴付けることはできないことを示唆している。
論文参考訳（メタデータ） (2023-10-17T12:58:17Z)
Dataset Bias in Human Activity Recognition [57.91018542715725]
このコントリビューションは、トレーニングデータを統計的にキュレートし、人間の身体的特性がHARのパフォーマンスにどの程度影響するかを評価する。時系列HARのセンサ,アクティビティ,記録の異なる2つのHARデータセット上で,最先端の畳み込みニューラルネットワークの性能を評価する。
論文参考訳（メタデータ） (2023-01-19T12:33:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。