論文の概要: Reward Bias Substitution: Single-Axis Bias Mitigations Redirect Optimization Pressure
- arxiv url: http://arxiv.org/abs/2605.27996v1
- Date: Wed, 27 May 2026 05:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.777261
- Title: Reward Bias Substitution: Single-Axis Bias Mitigations Redirect Optimization Pressure
- Title(参考訳): リワードバイアス代替:1軸バイアス緩和、間接最適化圧力
- Authors: Max Lamparth, Daniel Fein, Andreas Haupt, Marcel Hussing, Mykel J. Kochenderfer,
- Abstract要約: 報酬モデルバイアスの単一軸緩和は、最適化圧力をそれを取り除くのではなく、相関したプロキシに回転させることができる。
この障害は、監査と政策によって引き起こされる分布の計測と最適化のギャップによって実現される。
我々は緩和の結果を制度分類に定式化し、緩和、偏見置換、過補正が同じ観測結果を生み出すことを証明した。
- 参考スコア(独自算出の注目度): 23.021647176206972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-axis mitigations of reward-model biases (e.g., reducing proxy reliance on length, sycophancy, or style) can rotate optimization pressure onto correlated proxies rather than eliminate it, a failure mode we call reward bias substitution. The failure is enabled by a measurement-versus-optimization gap between audit and policy-induced distributions during mitigation evaluation and policy training. We formalize mitigation outcomes into a regime taxonomy and prove that successful mitigation, bias substitution, and overcorrection produce identical observables under any audit-distribution scoring, including ranking accuracy and win-rate, even when granted oracle access to the true reward. Across published preference-learning mitigation work, no method we survey reports the evidence needed to certify successful mitigation. Augmenting evaluation with policy-induced distributions while tracking multiple biases provably closes the gap, and we translate this into actionable prescriptions for mitigation methods and benchmarks. We demonstrate bias substitution in language model RLHF, where a length penalty during GRPO training compresses responses as intended yet redirects optimization pressure onto confidence calibration, driving the policy into overconfidence while factual free-form accuracy falls. We also show a published length-debiasing operator that zeroes reward-length correlation on the audit distribution but reintroduces bias under best-of-N selection on three of four SOTA reward models, and a length-sycophancy coupling whose direction reverses under human-LLM judge disagreement.
- Abstract(参考訳): 報酬モデルバイアスの単一軸緩和(例えば、長さ、薬局性、スタイルへのプロキシ依存を減らす)は、最適化圧力をそれを取り除くのではなく、相関したプロキシに回転させることができる。
この障害は、緩和評価と政策訓練の間、監査と政策誘導分布の計測対最適化ギャップによって実現される。
我々は、緩和効果を制度分類に定式化し、真の報酬にオラクルアクセスを許された場合でも、評価精度や勝利率を含む、いかなる監査配信スコアの下でも、緩和、偏見置換、過度補正が同一の可観測物を生成することを証明した。
選好学習の緩和作業の全体にわたって、私たちが調査した手法は、改善を成功させるために必要な証拠を報告していない。
複数のバイアスをトラッキングしながら、ポリシーによって引き起こされる分布による評価を向上することは、そのギャップを確実に閉じる。
言語モデルRLHFでは、GRPOトレーニング中の長さのペナルティが、最適化圧力を信頼度校正にリダイレクトして応答を圧縮し、実際の自由形精度が低下する間にポリシーを自信過剰に駆動する。
また、4つのSOTA報酬モデルのうち3つのベストオブN選択において、報酬長相関をゼロにするが、バイアスを再導入する長縮退演算子と、人間のLLM判断の不一致の下で方向が逆になる長長結合を示す。
関連論文リスト
- Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment [51.18269946911088]
RLHF(Reinforcement Learning from Human Feedback)の代替としてDPO(Direct Preference Optimization)が登場している。
このような場合、DPOとRLHFは基本的に異なる目的を最適化する。
本稿では,制約付き制約付きRLHF(Constrained Preference Optimization, CPO)を導入する。
我々の理論的分析は、DPOの保証が保たれ、証明可能なアライメントで単純さを保つソリューションを提供するときに成立する。
論文 参考訳(メタデータ) (2026-05-20T07:26:22Z) - Online Conformal Prediction with Corrupted Feedback [42.94410959330529]
オンライン共形予測(OCP)は適応的に更新された予測セットを通じてこの問題に対処する。
これらは、過去の予測セットのカバレッジに関する完全なフィードバックの仮定にヒンジを保証します。
実際には、観測された誤検出指標は、ノイズ、通信障害、あるいは敵の操作によって破損する可能性がある。
論文 参考訳(メタデータ) (2026-05-19T21:34:37Z) - Interactive Critique-Revision Training for Reliable Structured LLM Generation [18.00222080273147]
DPA-GRPOは,構成された検証器の介入による2人プレイヤジェネレータゲームのためのペアアクショントレーニング手法である。
我々は,非正規化ゲームを分析し,厳格に低いリワード介入やリビジョン行動に対する肯定的な確率が,一側偏差を生み出すことを示す。
TaxCalc TY24の実験では、DPA-GRPOはゼロショット生成とジェネレータのみのRLベースラインよりも構造化された決定精度を向上させる。
論文 参考訳(メタデータ) (2026-05-08T17:00:38Z) - SiMPO: Measure Matching for Online Diffusion Reinforcement Learning [52.46919717963149]
一般単調関数を持つ拡散RLにおける再重み付けスキームを一般化する,シンプルで統一的なフレームワークであるSiMPOを紹介する。
SiMPOは2段階の測度マッチングレンズを介して拡散RLを再考する。
我々は、負の再重み付けが準最適行動から政策を積極的に反映していることを示す幾何学的解釈を提供する。
論文 参考訳(メタデータ) (2026-03-10T22:01:13Z) - DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding [59.16244104797919]
本稿では,リスク制約付き復号法(DARC)*による分散アライメント(Disagreement-Aware Alignment)を提案する。
DARCは応答選択を、分布的に堅牢で、リスクに敏感な意思決定として捉えている。
アライメントベンチマークの実験では、DARCは競合平均品質を維持しながら、不一致と尾のリスクを低減する。
論文 参考訳(メタデータ) (2026-03-09T09:21:29Z) - How RLHF Amplifies Sycophancy [23.213056717401418]
大規模言語モデルは、好みに基づく後訓練後、しばしばサイコファンティックな振る舞いを増大させる。
我々は、アライメントに使用する人間の嗜好データにおいて、学習した報酬に対する最適化とバイアスを因果的に関連付ける明示的な増幅機構を同定する。
本稿では,増幅機構自体を中和する訓練時間介入を提案する。
論文 参考訳(メタデータ) (2026-02-01T03:46:14Z) - Counterfactual Reward Model Training for Bias Mitigation in Multimodal Reinforcement Learning [0.5204229323525671]
本稿では,マルチモーダル表現学習による因果推論を導入し,非教師付きバイアス耐性報酬信号を提供する。
我々は, フレーミングバイアス, クラス不均衡, 分散ドリフトを示すマルチモーダルフェイク対真のニュースデータセット上で, フレームワークの評価を行った。
その結果、偽ニュースの検出において89.12%の精度を達成し、ベースライン報酬モデルを上回った。
論文 参考訳(メタデータ) (2025-08-27T04:54:33Z) - Proximalized Preference Optimization for Diverse Feedback Types: A Decomposed Perspective on DPO [19.5712961932773]
我々は、直接選好最適化(DPO)を再考し、その損失が理論的に分解された改革を認めることを実証する。
PRO (Proximalized PReference Optimization) を導入し,多様な課金型に対応する統一手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T10:23:22Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。