論文の概要: The Alignment Floor: How Persona Customization Breaks Safety in Weakly-Aligned LLMs
- arxiv url: http://arxiv.org/abs/2605.27382v2
- Date: Thu, 28 May 2026 02:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.512219
- Title: The Alignment Floor: How Persona Customization Breaks Safety in Weakly-Aligned LLMs
- Title(参考訳): 人格のカスタマイズがLLMの安全性を損なう「アライメントフロア」
- Authors: Xing Zhang, Guanghui Wang, Yanwei Cui, Wei Qiu, Ziyuan Li, Bing Zhu, Peiyang He,
- Abstract要約: 本稿では,RLHF+構成AIモデルと,より軽量に整合したモデルとを対比したケーススタディを提案する。
このギャップをアライメントフロアとして定義する: $_textfloor(m)=max_pS(m,p)-min_pS(m,p)$。
デプロイ時の監査指標として$_textfloor$を提案し、ペルソナのカスタマイズをデプロイする前に、小さなペルソナパネルで測定する。
- 参考スコア(独自算出の注目度): 9.989306175511238
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Telling an LLM to "be enthusiastic" raises its sycophancy rate from 30\% to 50\% on a lightly-aligned model, but has zero effect on a strongly-aligned one. We define this gap as the alignment floor, $Δ_{\text{floor}}(m)=\max_pS(m,p)-\min_pS(m,p)$, the range of sycophancy rates a model produces across persona conditions, and treat sycophancy as a persona-conditional property rather than a fixed model property. Pluralistic AI relies on behavioral adaptation via persona prompts like "be creative" or "be thorough", which let systems respect diverse user values and communication styles; the safety question is how much customization a given model can absorb before its truthfulness shifts. We present a controlled case study contrasting a strongly-aligned RLHF + Constitutional-AI model (Claude Sonnet 4.6) with a more lightly-aligned model (Amazon Nova Lite), spanning seven persona conditions and five tasks for 1800 total runs. An existence-pair result motivates per-model auditing: there is at least one strongly-aligned model with $Δ_{\text{floor}}=5$pp (within 5pp of the 15\% control rate) and at least one lightly-aligned model with 45pp (5\%--50\% range). On the lightly-aligned model, all five Big Five personas increase sycophancy over control, and counterintuitively Agreeableness produces the smallest increase, not the largest. The single largest effect in the study is constructive: a Skeptic persona reduces sycophancy by 25pp on the lightly-aligned model, and is the only persona that instructs resistance against user claims rather than engagement with them, suggesting a directionality account. Cross-model transfer of persona effects is near-zero, so persona-alignment testing must be per-model. We propose $Δ_{\text{floor}}$ as a deployment-time audit metric: measure it on a small persona panel before deploying persona customization.
- Abstract(参考訳): LLMに"熱心になる"ように指示すると、そのサイコフィナンシー率は、軽く整列されたモデルでは30\%から50\%に上昇するが、強く整列したモデルでは効果がゼロになる。
このギャップをアライメントフロアとして定義する: $Δ_{\text{floor}}(m)=\max_pS(m,p)-\min_pS(m,p)$, モデルがペルソナ条件で生成する空白率の範囲を固定モデル特性ではなくペルソナ条件特性として扱う。
複数のAIは、“創造的”や“徹底的”といったペルソナのプロンプトによる行動適応に依存しているため、システムは多様なユーザ価値やコミュニケーションスタイルを尊重することができる。
本研究は,RLHF+コンスティチューショナルAIモデル(Claude Sonnet 4.6)と,より軽量に整合したモデル(Amazon Nova Lite)を対比したケーススタディである。
例えば、$Δ_{\text{floor}}=5$pp(制御率15\%の5pp)の強い整合モデルと、45pp(5\%-50\%の範囲)の光整合モデルがある。
軽く整列されたモデルでは、5人のビッグ・ファイブ・パーソナが制御よりもサイコフィナンシーを増し、対意的にアグレタビリティーは最大ではなく最小の増加を生み出す。
この研究で最も大きな効果は建設的であり、懐疑的な人格は、軽度に整列したモデルで梅毒を25pp減らし、彼らとの関わりよりもユーザクレームに対する抵抗を指示する唯一の人格であり、方向性の説明を示唆している。
ペルソナ効果のクロスモデル転送はゼロに近いため、ペルソナアライメントテストはモデル毎に行う必要がある。
デプロイ時の監査指標として$Δ_{\text{floor}}$を提案し、ペルソナのカスタマイズをデプロイする前に小さなペルソナパネルで測定する。
関連論文リスト
- Persona-Model Collapse in Emergent Misalignment [0.0]
有害な内容を持つ狭いデータに対する微調整された大きな言語モデルは、無関係なプロンプトに対して広範囲に不整合な振る舞いをもたらす。
モラル・サセプティビリティ(S)とモラル・ロバストネス(R)の2つの指標を用いてこの仮説を検証する。
これらのメトリクスは、与えられた文字(S)と、与えられた文字(R)をシミュレートするときにその一貫性を識別するモデルの能力を形式化する。
論文 参考訳(メタデータ) (2026-05-13T00:48:57Z) - Attributing Emergence in Million-Agent Systems [68.53670424791751]
大規模言語モデル(LLM)は、個々のエージェントにおける人間のような推論と意思決定をシミュレートすることができる。
このような研究は、個々のエージェントにマクロな出現をもたらす必要がある。
Aumann--Shapley path-integral attribution to LLM-powered MAS at million-agent scale。
論文 参考訳(メタデータ) (2026-05-12T01:49:41Z) - Do Large Language Models Get Caught in Hofstadter-Mobius Loops? [0.0]
本稿では、現代のRLHF学習言語モデルが構造的に類似した矛盾の対象となっていることを論じる。
トレーニングプロセスは、ユーザの嗜好の遵守とユーザの意図に対する疑念を同時に報いる。
結果として生じる行動プロファイルは、クラークがHofstadter-Mobiusループと呼んだものと一致している。
論文 参考訳(メタデータ) (2026-03-10T20:43:37Z) - Can LLMs Infer Personality from Real World Conversations? [5.705775078773656]
大規模言語モデル(LLM)は、オープンエンド言語からのスケーラブルなパーソナリティアセスメントに対して、有望なアプローチを提供する。
BFI-10項目予測のためのゼロショットプロンプトと、ビッグファイブ特性推定のためのゼロショットとチェーン・オブ・シートの両方を用いて、最先端の3つのLSMを試験した。
全てのモデルでは高い信頼性を示したが、構成の妥当性は限られていた。
論文 参考訳(メタデータ) (2025-07-18T20:22:47Z) - Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。
本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T04:41:08Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Differentially Private Reward Estimation with Preference Feedback [15.943664678210146]
嗜好に基づくフィードバックから学ぶことは最近、生成モデルと人間の関心を結びつけるための有望なアプローチとして、かなりの注目を集めている。
上記のパイプラインの任意のステップにおける敵攻撃は、人間のラベルのプライベートで機密性の高い情報を明らかにする可能性がある。
我々は、各ラベルのプライバシーを保護しつつ、嗜好に基づくフィードバックからの報酬推定の問題に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-30T16:58:30Z) - Simple synthetic data reduces sycophancy in large language models [88.4435858554904]
言語モデルにおける梅毒の有病率について検討する。
サイコファシー(Sycophancy)とは、モデルがそのビューが客観的に正しくない場合でも、人間のユーザのビューに従うように、応答を調整する場所である。
論文 参考訳(メタデータ) (2023-08-07T23:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。