論文の概要: Too Nice to Tell the Truth: Quantifying Agreeableness-Driven Sycophancy in Role-Playing Language Models
- arxiv url: http://arxiv.org/abs/2604.10733v1
- Date: Sun, 12 Apr 2026 17:12:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.192468
- Title: Too Nice to Tell the Truth: Quantifying Agreeableness-Driven Sycophancy in Role-Playing Language Models
- Title(参考訳): 真実を語るには残念すぎる:ロールプレイング言語モデルにおけるアグレラビリティ駆動のシクロファンシーの定量化
- Authors: Arya Shah, Deepali Mishra, Chaklam Silpasuwanchai,
- Abstract要約: 大規模言語モデルは、ユーザ要求時にペルソナとロールプレイ文字を採用する会話エージェントとして機能するようになっている。
この機能は、事実の正確性を優先するのではなく、ユーザを検証する応答を提供する傾向にある。
本研究は,13の小規模オープンウェイト言語モデルにおいて,ペルソナがサイコフィナンシーにどのように影響するかを体系的に検討する。
- 参考スコア(独自算出の注目度): 2.4851820343103035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models increasingly serve as conversational agents that adopt personas and role-play characters at user request. This capability, while valuable, raises concerns about sycophancy: the tendency to provide responses that validate users rather than prioritize factual accuracy. While prior work has established that sycophancy poses risks to AI safety and alignment, the relationship between specific personality traits of adopted personas and the degree of sycophantic behavior remains unexplored. We present a systematic investigation of how persona agreeableness influences sycophancy across 13 small, open-weight language models ranging from 0.6B to 20B parameters. We develop a benchmark comprising 275 personas evaluated on NEO-IPIP agreeableness subscales and expose each persona to 4,950 sycophancy-eliciting prompts spanning 33 topic categories. Our analysis reveals that 9 of 13 models exhibit statistically significant positive correlations between persona agreeableness and sycophancy rates, with Pearson correlations reaching $r = 0.87$ and effect sizes as large as Cohen's $d = 2.33$. These findings demonstrate that agreeableness functions as a reliable predictor of persona-induced sycophancy, with direct implications for the deployment of role-playing AI systems and the development of alignment strategies that account for personality-mediated deceptive behaviors.
- Abstract(参考訳): 大規模言語モデルは、ユーザ要求時にペルソナとロールプレイ文字を採用する会話エージェントとして機能するようになっている。
この能力は価値はあるものの、実際には正確さを優先するのではなく、ユーザを検証できる応答を提供する傾向にある、梅毒に関する懸念を提起する。
以前の研究で、サイコファンシーはAIの安全性とアライメントにリスクをもたらすことが確認されているが、採用されるペルソナの特定の性格特性とサイコファンティクスの行動の程度との関係は未解明のままである。
本稿では,0.6Bから20Bのパラメータを含む13の小規模かつオープンウェイトな言語モデルにおいて,ペルソナがサイコフィナンシーにどのように影響するかを体系的に検討する。
NEO-IPの適合度サブスケールで評価した275人の人格をベンチマークし,33のトピックカテゴリにまたがる4,950人の人格評価プロンプトに公開する。
分析の結果,13モデル中9モデルでは,Pearsonの相関値が$r=0.87$,効果サイズがCohenの$d=2.33$と統計的に有意な相関を示した。
これらの結果から, パーソナ誘発性梅毒の信頼性予測機能として, ロールプレイングAIシステムの展開や, パーソナライズされた認知行動を考慮したアライメント戦略の開発に直接的な意味があることが示唆された。
関連論文リスト
- The Silicon Mirror: Dynamic Behavioral Gating for Anti-Sycophancy in LLM Agents [0.0]
私たちはThe Silicon Mirrorという,ユーザの説得戦略を動的に検出し,事実の整合性を維持するためにAIを調整するオーケストレーションフレームワークを紹介します。
本稿では,RLHF学習モデルの故障モードとして,バリデーション前補正パターンを特徴付ける。
論文 参考訳(メタデータ) (2026-04-01T04:51:28Z) - Ask don't tell: Reducing sycophancy in large language models [1.5701458173528275]
本研究は, 質問に対する非質問に対する回答において, 薬効が有意に高いことを示す。
疑問に答える前に、モデルに非疑問を質問に変換するよう求めると、薬効が著しく低下することがわかった。
論文 参考訳(メタデータ) (2026-02-27T12:27:04Z) - HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns [59.17423586203706]
本稿では,心理的パターンを因果力の相互作用として扱うフレームワークであるHUMANLLMを提案する。
12,000の学術論文から244のパターンを構築し、2-5のパターンが相互に強化、衝突、変調されるシナリオ11,359を合成する。
我々の二重レベルチェックリストは、個々のパターンの忠実度と創発的なマルチパターンのダイナミクスを評価し、強い人間のアライメントを達成する。
論文 参考訳(メタデータ) (2026-01-15T08:56:53Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。
近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文 参考訳(メタデータ) (2025-09-03T21:27:10Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - Sycophancy in Large Language Models: Causes and Mitigations [0.0]
大規模言語モデル (LLM) は、幅広い自然言語処理タスクにおいて顕著な機能を示した。
シコファンの行動を示す傾向は、その信頼性と倫理的展開に重大なリスクをもたらす。
本稿では, LLMにおけるサイコフィナンシーの技術的調査を行い, その原因, 影響, 潜在的な緩和戦略について分析する。
論文 参考訳(メタデータ) (2024-11-22T16:56:49Z) - Accounting for Sycophancy in Language Model Uncertainty Estimation [28.08509288774144]
梅毒率と不確実性評価との関係を初めて検討した。
ユーザの信頼感は,梅毒の影響を調節する上で重要な役割を担っていることを示す。
モデルとユーザの不確実性の両方を外部化することは、梅毒のバイアスの影響を軽減するのに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T18:00:25Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。