論文の概要: Pressure, What Pressure? Sycophancy Disentanglement in Language Models via Reward Decomposition
- arxiv url: http://arxiv.org/abs/2604.05279v1
- Date: Tue, 07 Apr 2026 00:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.548666
- Title: Pressure, What Pressure? Sycophancy Disentanglement in Language Models via Reward Decomposition
- Title(参考訳): 圧力, 圧力 : 逆分解による言語モデルにおける語彙の絡み合い
- Authors: Muhammad Ahmed Mohsin, Ahsan Bilal, Muhammad Umer, Emily Fox,
- Abstract要約: 我々は、圧力独立とエビデンス応答性の形式的定義を通じて、梅毒症を手術する。
本稿では,報酬分解による薬効低下に対する最初のアプローチを提案する。
- 参考スコア(独自算出の注目度): 4.5328321409938095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models exhibit sycophancy, the tendency to shift their stated positions toward perceived user preferences or authority cues regardless of evidence. Standard alignment methods fail to correct this because scalar reward models conflate two distinct failure modes into a single signal: pressure capitulation, where the model changes a correct answer under social pressure, and evidence blindness, where the model ignores the provided context entirely. We operationalise sycophancy through formal definitions of pressure independence and evidence responsiveness, serving as a working framework for disentangled training rather than a definitive characterisation of the phenomenon. We propose the first approach to sycophancy reduction via reward decomposition, introducing a multi-component Group Relative Policy Optimisation (GRPO) reward that decomposes the training signal into five terms: pressure resistance, context fidelity, position consistency, agreement suppression, and factual correctness. We train using a contrastive dataset pairing pressure-free baselines with pressured variants across three authority levels and two opposing evidence contexts. Across five base models, our two-phase pipeline consistently reduces sycophancy on all metric axes, with ablations confirming that each reward term governs an independent behavioural dimension. The learned resistance to pressure generalises beyond our training methodology and prompt structure, reducing answer-priming sycophancy by up to 17 points on SycophancyEval despite the absence of such pressure forms during training.
- Abstract(参考訳): 大規模な言語モデルでは、証拠に拘わらず、ユーザの好みや権威を認知する姿勢にシフトする傾向にある。
標準的なアライメント手法では、スカラー報酬モデルが2つの異なる障害モードを1つの信号に分割するので、これを修正できない。
我々は、圧力独立とエビデンス応答性の形式的定義を通じて、梅毒を手術し、この現象の確定的な特徴化ではなく、非絞殺訓練のための作業の枠組みとして機能する。
本稿では,多成分群相対政策最適化(GRPO)報酬を導入し,トレーニング信号を圧力抵抗,文脈忠実度,位置整合性,合意の抑制,事実正当性という5つの用語に分解する。
我々は、3つの権限レベルと2つの反対のエビデンスコンテキストにわたるプレッシャー付き変種を持つ、対照的なデータセットペア・プレッシャフリーベースラインを使用してトレーニングする。
5つの基本モデルにまたがって、我々の2相パイプラインは、それぞれの報酬項が独立な振る舞いの次元を支配していることを確認することによって、すべての計量軸上のシコファンシーを一貫して減少させる。
SycophancyEvalでは,トレーニング中にこのような圧力形態が存在しないにも関わらず,学習した圧力抵抗がトレーニング方法論や迅速な構造を超えて一般化し,回答プライミング・サイコファンシーを最大17ポイント削減する。
関連論文リスト
- SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy [1.4732811715354452]
SWAY (英語: SWAY) は、サイコフィナンシーの教師なしの計算言語尺度である。
我々は,モデルが肯定的あるいは否定的な言語的圧力の下でどの程度の合意が変化するかを特定するための反実的促進機構を開発する。
逆の仮定が提案された場合、その答えがどのようなものかを考えるために、反実的緩和戦略をモデルに導入する。
論文 参考訳(メタデータ) (2026-04-02T18:00:14Z) - Evaluating Evidence Grounding Under User Pressure in Instruction-Tuned Language Models [6.431677598656395]
競合するドメインでは、命令調整言語モデルは、コンテキスト内証拠に対する忠実さに対するユーザ調整のプレッシャーをバランスさせなければならない。
我々は,0.27Bから32Bのパラメータにまたがる19の命令調整モデルに対して,エビデンス組成と不確実性を詳細に説明する。
論文 参考訳(メタデータ) (2026-03-20T17:38:23Z) - Why Agents Compromise Safety Under Pressure [6.429973383484847]
本稿では,適合実行が不可能になると生じる内因性緊張を特徴付けるエージェント・プレッシャと呼ばれる新しい概念を同定する。
この圧力下では、実用性を維持するために安全を戦略的に犠牲にする規範的ドリフトが示される。
高度な推論能力は、モデルが違反を正当化するために言語的合理化を構築するので、この減少を加速する。
論文 参考訳(メタデータ) (2026-03-16T08:37:34Z) - Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models [0.0]
大きな言語モデルは、真理と曖昧な平らさの間の構造的なトレードオフを内部化する。
この潜伏バイアスは、梅毒(sycophancy)として知られるもので、原則的推論よりもユーザ合意を優先している。
我々は,このバイアスを会話の文脈とは無関係に分離する,単ターン強制選択ベンチマークであるBeaconを紹介した。
論文 参考訳(メタデータ) (2025-10-19T06:36:57Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Sycophancy under Pressure: Evaluating and Mitigating Sycophantic Bias via Adversarial Dialogues in Scientific QA [36.21980066799023]
梅毒は、正確性に関係なく、ユーザの信念と整合する傾向にある。
その重要性にも拘わらず、現実的な質問応答の文脈において、梅毒症はいまだに過小評価されている。
本稿では,サイコファンティックな文脈がモデル行動に与える影響を定量的に評価する統合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-19T11:30:52Z) - Conditioning Matters: Training Diffusion Policies is Faster Than You Think [69.31534053485711]
拡散政策は、視覚言語アクション(VLA)モデルを構築するための主流パラダイムとして登場した。
条件拡散政策訓練の基本的な課題は, 生成条件の識別が困難である場合, 訓練対象が限界行動分布をモデル化することである。
条件に依存しない条件付きフローマッチングにおけるソース分布を変更するソリューションであるCocosを提案する。
論文 参考訳(メタデータ) (2025-05-16T11:14:22Z) - Counterfactual Realizability [52.85109506684737]
本稿では, 正規化可能性の定義, 分布からサンプルを抽出する能力を導入し, 任意の反事実分布が実現可能であるかどうかを判定する完全アルゴリズムを開発する。
本稿では、因果的公正さと因果的強化学習のモチベーション例を用いて、この新たな反ファクト的データ収集フレームワークの意義を説明する。
論文 参考訳(メタデータ) (2025-03-14T20:54:27Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z) - Federated Conformal Predictors for Distributed Uncertainty
Quantification [83.50609351513886]
コンフォーマル予測は、機械学習において厳密な不確実性定量化を提供するための一般的なパラダイムとして現れつつある。
本稿では,共形予測を連邦学習環境に拡張する。
本稿では、FL設定に適した部分交換可能性の弱い概念を提案し、それをフェデレート・コンフォーマル予測フレームワークの開発に利用する。
論文 参考訳(メタデータ) (2023-05-27T19:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。