論文の概要: From Curiosity to Caution: Mitigating Reward Hacking for Best-of-N with Pessimism
- arxiv url: http://arxiv.org/abs/2604.04648v1
- Date: Mon, 06 Apr 2026 12:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.194201
- Title: From Curiosity to Caution: Mitigating Reward Hacking for Best-of-N with Pessimism
- Title(参考訳): 好奇心から注意:ペシミズムによるベスト・オブ・Nのハッキングの軽減
- Authors: Zhuohao Yu, Zhiwei Steven Wu, Adam Block,
- Abstract要約: 我々は,BoNサンプリングにおける報酬ハッキングを著しく軽減する,単純で計算効率のよいアプローチであることを示す。
また、単純化された線形設定の理論解析を行い、標準的なBoNアプローチよりも注意が確実に改善されることを示す。
- 参考スコア(独自算出の注目度): 30.96634743446629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time compute scaling has emerged as a powerful paradigm for improving language model performance on a wide range of tasks, but the question of how best to use the additional compute remains open. A popular approach is BoN sampling, where N candidate responses are generated, scored according to a reward model, and the highest-scoring response is selected. While this approach can improve performance, it is vulnerable to reward hacking, where performance degrades as N increases due to the selection of responses that exploit imperfections in the reward model instead of genuinely improving generation quality. Prior attempts to mitigate reward hacking, via stronger reward models or heavy-handed distributional regularization, either fail to fully address over-optimization or are too conservative to exploit additional compute. In this work, we explore the principle of pessimism in RL, which uses lower confidence bounds on value estimates to avoid OOD actions with uncertain reward estimates. Our approach, termed as caution, can be seen as the reverse of curiosity: where curiosity rewards prediction error as a signal of novelty, caution penalizes prediction error as a signal of distributional uncertainty. Practically, caution trains an error model on typical responses and uses its prediction error to lower reward estimates for atypical ones. Our extensive empirical evaluation demonstrates that caution is a simple, computationally efficient approach that substantially mitigates reward hacking in BoN sampling. We also provide a theoretical analysis in a simplified linear setting, which shows that caution provably improves over the standard BoN approach. Together, our results not only establish caution as a practical solution to reward hacking, but also provide evidence that curiosity-based approaches can be a general OOD detection technique in LLM settings.
- Abstract(参考訳): 推論時間計算のスケーリングは、幅広いタスクにおいて言語モデルのパフォーマンスを改善するための強力なパラダイムとして現れてきたが、追加の計算をどのように使うのが最適かという問題は未解決のままである。
一般的なアプローチは、N候補応答が生成され、報酬モデルに従ってスコアされ、最高スコア応答が選択されるBoNサンプリングである。
このアプローチは、パフォーマンスを向上させることができるが、真に生成品質を改善するのではなく、報酬モデルにおける不完全性を利用する応答の選択により、Nが増加するにつれてパフォーマンスが低下する報奨ハッキングには脆弱である。
報酬のハッキングを軽減しようとする以前の試みは、強力な報酬モデルや重み付けの分散正規化を通じて、過度な最適化に完全に対処できなかったり、追加の計算を利用するには保守的すぎる。
本研究では,不確実な報酬推定を伴うOOD行動を回避するために,評価値の信頼度を低くするRLにおける悲観主義の原理を考察する。
好奇心が予測誤差を新しい信号として報いる場合、注意は分布の不確実性の信号として予測誤差を罰する。
実際、警告は典型的な応答でエラーモデルを訓練し、その予測誤差を使用して非典型的応答に対する報酬推定を下げる。
大規模な実証実験により,BoNサンプリングにおける報酬ハッキングを著しく軽減する,簡単な,計算効率のよいアプローチであることが確認された。
また、単純化された線形設定の理論解析を行い、標準的なBoNアプローチよりも注意が確実に改善されることを示す。
本研究の結果は,ハッキングを報奨する実用的な解決策としてだけではなく,好奇心に基づくアプローチがLDM設定における一般的なOOD検出手法であることを示すものである。
関連論文リスト
- Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment [10.749836992585363]
Best-of-N (BoN) サンプリングは、言語モデルにおいて広く使われている推論時間アライメント手法である。
最近の理論的研究は、これは統計的に準最適であり、報酬ハッキングに弱いことを示唆している。
適切な調整を施したBoNは,高い勝利率を達成するのに最適であり,統計的に最適であることを示す。
論文 参考訳(メタデータ) (2026-03-05T22:54:19Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Probabilistic Uncertain Reward Model [27.40414952747553]
本稿では、優先データから生じる報酬分布を学習するための確率的不確実リワードモデル(PURM)を提案する。
PURMは従来の手法よりも精度が高く,不確実性も高いことを示す。
論文 参考訳(メタデータ) (2025-03-28T14:39:52Z) - Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization [23.817251267022847]
本稿では,過度な最適化問題を緩和するために,行動対応型政策最適化(BSPO)手法を提案する。
BSPOは強化学習過程におけるOOD反応の発生を減少させる。
実験の結果,BSPOは報酬過度最適化の防止においてベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-23T16:20:59Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - Improving Out-of-Distribution Detection via Epistemic Uncertainty
Adversarial Training [29.4569172720654]
我々は,ドロップアウトアンサンブルによって予測される不確実性の攻撃を組み込んだ,単純な対向訓練手法を開発した。
本手法は,OOD検出性能を標準データ上で向上させる(逆向きではない)とともに,ほぼランダムな推定性能から$geq 0.75$まで,標準化された部分AUCを改善する。
論文 参考訳(メタデータ) (2022-09-05T14:32:19Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。