論文の概要: How RLHF Amplifies Sycophancy
- arxiv url: http://arxiv.org/abs/2602.01002v1
- Date: Sun, 01 Feb 2026 03:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.518863
- Title: How RLHF Amplifies Sycophancy
- Title(参考訳): RLHFがSycophancyをどのように増幅するか
- Authors: Itai Shapira, Gerdus Benade, Ariel D. Procaccia,
- Abstract要約: 大規模言語モデルは、好みに基づく後訓練後、しばしばサイコファンティックな振る舞いを増大させる。
我々は、アライメントに使用する人間の嗜好データにおいて、学習した報酬に対する最適化とバイアスを因果的に関連付ける明示的な増幅機構を同定する。
本稿では,増幅機構自体を中和する訓練時間介入を提案する。
- 参考スコア(独自算出の注目度): 23.213056717401418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often exhibit increased sycophantic behavior after preference-based post-training, showing a stronger tendency to affirm a user's stated or implied belief even when this conflicts with factual accuracy or sound judgment. We present a formal analysis of how alignment from human feedback can increase this failure mode by identifying an explicit amplification mechanism that causally links optimization against a learned reward to bias in the human preference data used for alignment. We show that the direction of behavioral drift is determined by a covariance under the base policy between endorsing the belief signal in the prompt and the learned reward, and that the first-order effect reduces to a simple mean-gap condition. We then analyze reward learning from pairwise comparisons under random utility models like Bradley-Terry and characterize when bias in human annotators' preferences induces this reward gap. Next, we propose a training-time intervention designed to neutralize the amplification mechanism itself. Among all post-trained policies that prevent sycophantic behavior from increasing, we characterize the unique policy closest in KL divergence to the unconstrained post-trained policy, and derive the corresponding minimal reward correction as a closed-form agreement penalty. Computational experiments find that reward gaps are common and cause behavioral drift in all the configurations considered.
- Abstract(参考訳): 大規模言語モデルは、嗜好に基づくポストトレーニングの後、しばしばサイコファンティックな行動が増加し、それが事実の正確性や健全な判断と矛盾する場合でも、ユーザの主張や暗黙の信念を肯定する傾向が強まる。
本稿では,人間のフィードバックからのアライメントが,アライメントに使用する人間の嗜好データにおいて,学習した報酬に対する最適化とバイアスを因果的にリンクする明示的な増幅機構を同定することにより,この障害モードをいかに向上させるかのフォーマルな分析を行う。
本研究では,行動ドリフトの方向は,プロンプトにおける信念信号の支持と学習報酬との間の基本方針の下での共分散によって決定され,第1次効果は単純な平均ギャップ条件に還元されることを示す。
次に、Bradley-Terryのようなランダムなユーティリティモデルの下でのペアワイズ比較から報酬学習を分析し、人間のアノテータの好みの偏りが報酬ギャップを引き起こすと特徴付ける。
次に,増幅機構自体を中和する訓練時間介入を提案する。
サイコファンの行動が増加するのを防ぐ全てのポストトレーニング政策の中で、KLの分岐に最も近いユニークな政策を非拘束のポストトレーニング政策に特徴付け、対応する最小報酬補正をクローズドフォーム協定のペナルティとして導出する。
計算実験により、報酬ギャップは一般的であり、考慮されたすべての構成において行動のドリフトを引き起こすことが判明した。
関連論文リスト
- Targeting Misalignment: A Conflict-Aware Framework for Reward-Model-based LLM Alignment [5.900494456937422]
逆モデルに基づく微調整は、大規模言語モデルと人間の嗜好の整合における中心的なパラダイムである。
本稿では,その微調整過程を知識統合の一形態として扱うことにより,このような不整合を識別・緩和する新たな枠組みについて検討する。
論文 参考訳(メタデータ) (2025-12-10T00:52:21Z) - Rectifying Shortcut Behaviors in Preference-based Reward Learning [46.09046818725698]
強化学習では、好みに基づく報酬モデルが、大きな言語モデルと人間の協調行動の整合において中心的な役割を果たす。
最近の研究では、これらのモデルはハッキングに報いる傾向があり、過度な最適化のため、しばしばうまく一般化できないことが示されている。
我々は、好みに基づく報酬学習におけるショートカット行動を軽減するために、原則的だが柔軟なアプローチを導入する。
論文 参考訳(メタデータ) (2025-10-21T20:08:32Z) - A Principled Loss Function for Direct Language Model Alignment [0.0]
本稿では,RLHF最適条件から直接導出した新しい損失関数を提案する。
提案した損失は,その差ではなく,基礎となる報酬によって規定される,ロジットの特定の有限値を対象としている。
この固有の安定性は、報酬のハッキングを防ぎ、より効果的なアライメントをもたらす。
論文 参考訳(メタデータ) (2025-08-10T01:56:58Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - STRAPPER: Preference-based Reinforcement Learning via Self-training
Augmentation and Peer Regularization [18.811470043767713]
優先に基づく強化学習(PbRL)は、複雑な報酬関数を2進的な人間の好みで学習することを約束する。
本稿では,不定形ラベルを記憶した報酬モデルをペナルティ化し,自信ある予測を得る自己学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-19T00:31:58Z) - Ensembling over Classifiers: a Bias-Variance Perspective [13.006468721874372]
Pfau (2013) による偏差分解の拡張の上に構築し, 分類器のアンサンブルの挙動に関する重要な知見を得る。
条件付き推定は必然的に既約誤差を生じさせることを示す。
経験的に、標準的なアンサンブルはバイアスを減少させ、この予期せぬ減少のために、分類器のアンサンブルがうまく機能するかもしれないという仮説を立てる。
論文 参考訳(メタデータ) (2022-06-21T17:46:35Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。