論文の概要: Playing Devil's Advocate: Off-the-Shelf Persona Vectors Rival Targeted Steering for Sycophancy
- arxiv url: http://arxiv.org/abs/2605.21006v1
- Date: Wed, 20 May 2026 10:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.629479
- Title: Playing Devil's Advocate: Off-the-Shelf Persona Vectors Rival Targeted Steering for Sycophancy
- Title(参考訳): Devil's Advocate:Off-the-Shelf Persona Vectors Rival Targeted Steering for Sycophancy
- Authors: Ishaan Kelkar, Nebras Alam, Vikram Kakaria, Madhur Panwar, Vasu Sharma, Maheep Chaudhary,
- Abstract要約: 本研究では,異なるペルソナがtextbfsycophancy に与える影響について検討する。
標準緩和(Contrastive Activation Addition、CAA)は、シコファンと正直な反応のラベル付き対から操舵方向を導出する。
本研究は、本来はロールプレイングのために開発され、薬局データに基づいて訓練されていない、市販のペルソナステアリングベクターが代替手段として機能するかどうかを評価する。
- 参考スコア(独自算出の注目度): 5.645350862501389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the effect of different persona on \textbf{sycophancy}: model's agreement with users even when the user is incorrect. The standard mitigation, Contrastive Activation Addition (CAA), derives a steering direction from labelled pairs of sycophantic and honest responses. This study evaluates whether off-the-shelf persona steering vectors, originally developed for general role-playing and not trained on sycophancy data, can serve as an alternative. In two instruction-tuned models, steering toward personas characterised by doubt or scrutiny reduces sycophancy to approximately $68\%$ and $98\%$ of CAA's effect, and, unlike CAA, maintains accuracy when the user is correct. The effect is also asymmetric: steering toward agreeable personas does not produce a mirror increase in sycophancy. Geometrically, the persona vector is largely independent of the direction of sycophancy in activation space. Collectively, these findings suggest that sycophancy is better understood as a persona-level property rather than a single steerable direction. We release our code here: https://anonymous.4open.science/r/Sycophancy-Steering-9DF0/.
- Abstract(参考訳): 本稿では,異なるペルソナがtextbf{sycophancy}に与える影響について考察する。
標準的な緩和であるContrastive Activation Addition (CAA)は、ラベル付きされたシコファンと正直な反応から操舵方向を導出する。
本研究は、本来はロールプレイングのために開発され、薬局データに基づいて訓練されていない、市販のペルソナステアリングベクターが代替手段として機能するかどうかを評価する。
2つの命令調整モデルでは、疑念や精査によって特徴づけられるペルソナに対する操舵は、薬効の約6,8\%と9,8\%に減少し、CAAとは異なり、ユーザが正しければ正確性を維持する。
この効果は非対称であり、同意可能なペルソナに対する操舵は、筋力の鏡的増加を生じさせない。
幾何学的には、ペルソナベクトルは活性化空間におけるシコファンシーの方向とは独立である。
以上より, 統合失調症は単方向ではなく, ペルソナレベルの特性として理解されていることが示唆された。
https://anonymous.4open.science/r/Sycophancy-Steering-9DF0/
関連論文リスト
- Too Polite to Disagree: Understanding Sycophancy Propagation in Multi-Agent Systems [3.2961356090661393]
大規模言語モデル(LLM)は、しばしば梅毒性を示す。
我々は、それぞれが梅毒に対する傾向を推定するピア・サイコファンシー・ランキングをエージェントに提供する。
その結果, サイコファンシーの先行性の提供は, サイコファンシー・ピアの影響を低減し, エラーカスケードを緩和し, 最終的な議論精度を10.5%向上させることがわかった。
論文 参考訳(メタデータ) (2026-04-03T03:02:42Z) - Ask don't tell: Reducing sycophancy in large language models [1.5701458173528275]
本研究は, 質問に対する非質問に対する回答において, 薬効が有意に高いことを示す。
疑問に答える前に、モデルに非疑問を質問に変換するよう求めると、薬効が著しく低下することがわかった。
論文 参考訳(メタデータ) (2026-02-27T12:27:04Z) - Not Your Typical Sycophant: The Elusive Nature of Sycophancy in Large Language Models [2.1700203922407493]
そこで本研究では, LLMの薬効を直接的, 中立的に評価する新しい手法を提案する。
LLM-as-a-judge(英語版)の使用は、賭け設定におけるゼロサムゲームとしての梅毒の評価である。
論文 参考訳(メタデータ) (2026-01-21T20:00:14Z) - ELEPHANT: Measuring and understanding social sycophancy in LLMs [31.88430788417527]
本稿では,ユーザの顔の過剰な保存を特徴とする社会性梅毒について紹介する。
ベンチマークを11モデルに適用すると、LSMは社会的梅毒の頻度が常に高いことを示す。
論文 参考訳(メタデータ) (2025-05-20T06:45:17Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Towards Understanding Sycophancy in Language Models [49.352840825419236]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。