Fugu-MT 論文翻訳(概要): PTCBENCH: Benchmarking Contextual Stability of Personality Traits in LLM Systems

論文の概要: PTCBENCH: Benchmarking Contextual Stability of Personality Traits in LLM Systems

arxiv url: http://arxiv.org/abs/2602.00016v1
Date: Mon, 12 Jan 2026 18:15:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 02:03:42.20174
Title: PTCBENCH: Benchmarking Contextual Stability of Personality Traits in LLM Systems
Title（参考訳）: PTCBENCH:LLMシステムにおけるパーソナリティ特性の文脈安定性のベンチマーク
Authors: Jiongchi Yu, Yuhan Ma, Xiaoyu Zhang, Junjie Wang, Qiang Hu, Chao Shen, Xiaofei Xie,
Abstract要約: 制御状況下での大規模言語モデル(LLM)の一貫性を定量化するベンチマークであるPTCBENCHを紹介する。 PTCBENCHは、様々な場所のコンテキストやライフイベントにまたがる12の異なる外部条件をモデル化し、NEO Five-Factor Inventoryを用いてその性格を厳格に評価する。 39,240人の性格特性記録について検討したところ、ある外部シナリオがLSMの顕著な性格変化を誘発し、その推論能力を変化させることが判明した。
参考スコア（独自算出の注目度）: 30.449659477704543
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the increasing deployment of large language models (LLMs) in affective agents and AI systems, maintaining a consistent and authentic LLM personality becomes critical for user trust and engagement. However, existing work overlooks a fundamental psychological consensus that personality traits are dynamic and context-dependent. To bridge this gap, we introduce PTCBENCH, a systematic benchmark designed to quantify the consistency of LLM personalities under controlled situational contexts. PTCBENCH subjects models to 12 distinct external conditions spanning diverse location contexts and life events, and rigorously assesses the personality using the NEO Five-Factor Inventory. Our study on 39,240 personality trait records reveals that certain external scenarios (e.g., "Unemployment") can trigger significant personality changes of LLMs, and even alter their reasoning capabilities. Overall, PTCBENCH establishes an extensible framework for evaluating personality consistency in realistic, evolving environments, offering actionable insights for developing robust and psychologically aligned AI systems.
Abstract（参考訳）: 感情エージェントやAIシステムへの大規模言語モデル(LLM)の展開が増加するにつれ、ユーザ信頼とエンゲージメントにとって、一貫性と信頼性のあるLLMパーソナリティの維持が重要になる。しかし、既存の研究は人格の特徴が動的で文脈に依存しているという基本的な心理的見解を見落としている。このギャップを埋めるために,制御された状況条件下でのLLM個人性の一貫性を定量化するシステムベンチマークPTCBENCHを導入する。 PTCBENCHは、様々な場所のコンテキストやライフイベントにまたがる12の異なる外部条件をモデル化し、NEO Five-Factor Inventoryを用いてその性格を厳格に評価する。 39,240人の性格特性記録について検討したところ、ある外部シナリオ(例えば「失業」)がLSMの顕著な性格変化を誘発し、その推論能力を変化させることが判明した。 PTCBENCHは、現実的で進化している環境でのパーソナリティの一貫性を評価するための拡張可能なフレームワークを確立し、堅牢で心理的に整合したAIシステムを開発するための実用的な洞察を提供する。

関連論文リスト

LiveCultureBench: a Multi-Agent, Multi-Cultural Benchmark for Large Language Models in Dynamic Social Simulations [63.478832978278014]
大規模言語モデル(LLM)は、自律的なエージェントとしてますますデプロイされているが、評価は主に文化的適切性や評価者の信頼性よりもタスクの成功に焦点を当てている。シミュレーション町において, LLMをエージェントとして組み込んだマルチカルチャー動的ベンチマークであるLiveCultureBenchを紹介する。
論文参考訳（メタデータ） (2026-03-02T15:04:16Z)
Structured Personality Control and Adaptation for LLM Agents [11.050618253938126]
大規模言語モデル(LLM)は、ますますヒトとコンピュータの相互作用(HCI)を形作っているユング心理学的タイプを用いたLLMパーソナリティをモデル化する枠組みを提案する。この設計により、エージェントは対話要求に応じて動的に調整しながらニュアンス付き特性を維持することができる。
論文参考訳（メタデータ） (2026-01-15T03:15:24Z)
DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。 DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文参考訳（メタデータ） (2025-10-17T10:14:26Z)
IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization [66.6349183886101]
IROTEは,安定かつ伝達可能な特性抽出のための新しいインコンテキスト手法である。 IROTEが生成する1つの自己反射は、様々な下流タスクにまたがる目標特性の安定な偽造を LLM が引き起こすことを示す。
論文参考訳（メタデータ） (2025-08-12T08:04:28Z)
Persistent Instability in LLM's Personality Measurements: Effects of Scale, Reasoning, and Conversation History [7.58175460763641]
400B+モデルでさえ、相当な応答変動を示す。連鎖推論、詳細なペルソナ指導、会話履歴の含意など、行動の安定化を期待する介入は、パラドックス的に変動を増大させる。予測可能な行動を必要とする安全クリティカルなアプリケーションに対しては,人格に基づくアライメント戦略が根本的に不十分である可能性が示唆された。
論文参考訳（メタデータ） (2025-08-06T19:11:33Z)
A Comparative Study of Large Language Models and Human Personality Traits [6.354326674890978]
言語モデル(LLM)は、言語理解と生成において人間のような能力を示す。本研究では, LLMが人格的特徴を示すか, これらの特徴が人格とどのように比較されるかを検討する。
論文参考訳（メタデータ） (2025-05-01T15:10:15Z)
Beyond Self-Reports: Multi-Observer Agents for Personality Assessment in Large Language Models [2.7010154811483167]
本稿では,LLMエージェントの性格特性評価のための新しいマルチ・オブザーバ・フレームワークを提案する。自己評価に頼る代わりに、複数のオブザーバエージェントを採用する。これらの評価は従来の自己評価よりも人間の判断と密接に一致していることを示す。
論文参考訳（メタデータ） (2025-04-11T10:03:55Z)
Exploring the Impact of Personality Traits on Conversational Recommender Systems: A Simulation with Large Language Models [70.180385882195]
本稿では,対話型レコメンダシステム(CRS)のためのパーソナリティを考慮したユーザシミュレーションを提案する。ユーザエージェントはカスタマイズ可能な性格特性と嗜好を誘導し、システムエージェントはCRS内の現実的な相互作用をシミュレートする説得能力を有する。実験により,現在最先端のLCMは,特定の性格特性に適合した多様なユーザ応答を効果的に生成できることが示された。
論文参考訳（メタデータ） (2025-04-09T13:21:17Z)
Personality Editing for Language Models through Adjusting Self-Referential Queries [17.051166122108857]
PALETTE(Personality Adjustment by LLM SElf-TargeTed queries)は,Large Language Models(LLMs)における人格編集の新しい手法である。本手法では,心理的構成に根ざした自己参照文を事実知識と類似して扱う調整クエリを導入し,人格関連応答の直接編集を可能にする。 PALETTEは微調整とは異なり、パーソナリティ次元を横断するパーソナリティアライメントの大幅な改善を達成するために、12の編集サンプルしか必要としない。
論文参考訳（メタデータ） (2025-02-17T13:28:14Z)
Exploring the Personality Traits of LLMs through Latent Features Steering [12.142248881876355]
本研究では, 文化的規範や環境ストレス要因などの要因が, 大規模言語モデル(LLM)内でどのように性格特性を形作るかを検討する。本研究では,モデル内の要因に対応する潜在特徴を抽出し,ステアリングすることで,モデルの振る舞いを変更する訓練自由アプローチを提案する。
論文参考訳（メタデータ） (2024-10-07T21:02:34Z)
PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文参考訳（メタデータ） (2024-07-17T08:13:22Z)
Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。 LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
Personality Traits in Large Language Models [42.31355340867784]
コミュニケーションの有効性を決定する重要な要因は人格である。本稿では,広く使用されている大規模言語モデル上でのパーソナリティテストの管理と検証のための,新しい,包括的・包括的心理学的・信頼性の高い方法論を提案する。本稿では,計測・形成手法の適用と倫理的意味,特に責任あるAIについて論じる。
論文参考訳（メタデータ） (2023-07-01T00:58:51Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。