論文の概要: PTCBENCH: Benchmarking Contextual Stability of Personality Traits in LLM Systems
- arxiv url: http://arxiv.org/abs/2602.00016v1
- Date: Mon, 12 Jan 2026 18:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.20174
- Title: PTCBENCH: Benchmarking Contextual Stability of Personality Traits in LLM Systems
- Title(参考訳): PTCBENCH:LLMシステムにおけるパーソナリティ特性の文脈安定性のベンチマーク
- Authors: Jiongchi Yu, Yuhan Ma, Xiaoyu Zhang, Junjie Wang, Qiang Hu, Chao Shen, Xiaofei Xie,
- Abstract要約: 制御状況下での大規模言語モデル(LLM)の一貫性を定量化するベンチマークであるPTCBENCHを紹介する。
PTCBENCHは、様々な場所のコンテキストやライフイベントにまたがる12の異なる外部条件をモデル化し、NEO Five-Factor Inventoryを用いてその性格を厳格に評価する。
39,240人の性格特性記録について検討したところ、ある外部シナリオがLSMの顕著な性格変化を誘発し、その推論能力を変化させることが判明した。
- 参考スコア(独自算出の注目度): 30.449659477704543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing deployment of large language models (LLMs) in affective agents and AI systems, maintaining a consistent and authentic LLM personality becomes critical for user trust and engagement. However, existing work overlooks a fundamental psychological consensus that personality traits are dynamic and context-dependent. To bridge this gap, we introduce PTCBENCH, a systematic benchmark designed to quantify the consistency of LLM personalities under controlled situational contexts. PTCBENCH subjects models to 12 distinct external conditions spanning diverse location contexts and life events, and rigorously assesses the personality using the NEO Five-Factor Inventory. Our study on 39,240 personality trait records reveals that certain external scenarios (e.g., "Unemployment") can trigger significant personality changes of LLMs, and even alter their reasoning capabilities. Overall, PTCBENCH establishes an extensible framework for evaluating personality consistency in realistic, evolving environments, offering actionable insights for developing robust and psychologically aligned AI systems.
- Abstract(参考訳): 感情エージェントやAIシステムへの大規模言語モデル(LLM)の展開が増加するにつれ、ユーザ信頼とエンゲージメントにとって、一貫性と信頼性のあるLLMパーソナリティの維持が重要になる。
しかし、既存の研究は人格の特徴が動的で文脈に依存しているという基本的な心理的見解を見落としている。
このギャップを埋めるために,制御された状況条件下でのLLM個人性の一貫性を定量化するシステムベンチマークPTCBENCHを導入する。
PTCBENCHは、様々な場所のコンテキストやライフイベントにまたがる12の異なる外部条件をモデル化し、NEO Five-Factor Inventoryを用いてその性格を厳格に評価する。
39,240人の性格特性記録について検討したところ、ある外部シナリオ(例えば「失業」)がLSMの顕著な性格変化を誘発し、その推論能力を変化させることが判明した。
PTCBENCHは、現実的で進化している環境でのパーソナリティの一貫性を評価するための拡張可能なフレームワークを確立し、堅牢で心理的に整合したAIシステムを開発するための実用的な洞察を提供する。
関連論文リスト
- Structured Personality Control and Adaptation for LLM Agents [11.050618253938126]
大規模言語モデル(LLM)は、ますますヒトとコンピュータの相互作用(HCI)を形作っている
ユング心理学的タイプを用いたLLMパーソナリティをモデル化する枠組みを提案する。
この設計により、エージェントは対話要求に応じて動的に調整しながらニュアンス付き特性を維持することができる。
論文 参考訳(メタデータ) (2026-01-15T03:15:24Z) - Persistent Instability in LLM's Personality Measurements: Effects of Scale, Reasoning, and Conversation History [7.58175460763641]
400B+モデルでさえ、相当な応答変動を示す。
連鎖推論、詳細なペルソナ指導、会話履歴の含意など、行動の安定化を期待する介入は、パラドックス的に変動を増大させる。
予測可能な行動を必要とする安全クリティカルなアプリケーションに対しては,人格に基づくアライメント戦略が根本的に不十分である可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-06T19:11:33Z) - A Comparative Study of Large Language Models and Human Personality Traits [6.354326674890978]
言語モデル(LLM)は、言語理解と生成において人間のような能力を示す。
本研究では, LLMが人格的特徴を示すか, これらの特徴が人格とどのように比較されるかを検討する。
論文 参考訳(メタデータ) (2025-05-01T15:10:15Z) - Beyond Self-Reports: Multi-Observer Agents for Personality Assessment in Large Language Models [2.7010154811483167]
本稿では,LLMエージェントの性格特性評価のための新しいマルチ・オブザーバ・フレームワークを提案する。
自己評価に頼る代わりに、複数のオブザーバエージェントを採用する。
これらの評価は従来の自己評価よりも人間の判断と密接に一致していることを示す。
論文 参考訳(メタデータ) (2025-04-11T10:03:55Z) - Exploring the Impact of Personality Traits on Conversational Recommender Systems: A Simulation with Large Language Models [70.180385882195]
本稿では,対話型レコメンダシステム(CRS)のためのパーソナリティを考慮したユーザシミュレーションを提案する。
ユーザエージェントはカスタマイズ可能な性格特性と嗜好を誘導し、システムエージェントはCRS内の現実的な相互作用をシミュレートする説得能力を有する。
実験により,現在最先端のLCMは,特定の性格特性に適合した多様なユーザ応答を効果的に生成できることが示された。
論文 参考訳(メタデータ) (2025-04-09T13:21:17Z) - Exploring the Personality Traits of LLMs through Latent Features Steering [12.142248881876355]
本研究では, 文化的規範や環境ストレス要因などの要因が, 大規模言語モデル(LLM)内でどのように性格特性を形作るかを検討する。
本研究では,モデル内の要因に対応する潜在特徴を抽出し,ステアリングすることで,モデルの振る舞いを変更する訓練自由アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-07T21:02:34Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Personality Traits in Large Language Models [42.31355340867784]
コミュニケーションの有効性を決定する重要な要因は人格である。
本稿では,広く使用されている大規模言語モデル上でのパーソナリティテストの管理と検証のための,新しい,包括的・包括的心理学的・信頼性の高い方法論を提案する。
本稿では,計測・形成手法の適用と倫理的意味,特に責任あるAIについて論じる。
論文 参考訳(メタデータ) (2023-07-01T00:58:51Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。