論文の概要: Inference-Time Reward Hacking in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.19248v1
- Date: Tue, 24 Jun 2025 02:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.440517
- Title: Inference-Time Reward Hacking in Large Language Models
- Title(参考訳): 大規模言語モデルにおける推論時間リワードハック
- Authors: Hadi Khalaf, Claudio Mayrink Verdun, Alex Oesterling, Himabindu Lakkaraju, Flavio du Pin Calmon,
- Abstract要約: リワードモデルは、正確性、有用性、安全性などの複雑なデシダータのプロキシとして機能する。
不正な報酬を過度に最適化することで、意図したアライメントの目標を覆し、全体的なパフォーマンスを低下させることができる。
HedgeTuneは最適な推論時間パラメータを見つけ、報酬のハッキングを避けるための効率的なアルゴリズムである。
- 参考スコア(独自算出の注目度): 18.461698175682987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common paradigm to improve the performance of large language models is optimizing for a reward model. Reward models assign a numerical score to LLM outputs indicating, for example, which response would likely be preferred by a user or is most aligned with safety goals. However, reward models are never perfect. They inevitably function as proxies for complex desiderata such as correctness, helpfulness, and safety. By overoptimizing for a misspecified reward, we can subvert intended alignment goals and reduce overall performance -- a phenomenon commonly referred to as reward hacking. In this work, we characterize reward hacking in inference-time alignment and demonstrate when and how we can mitigate it by hedging on the proxy reward. We study this phenomenon under Best-of-$n$ (BoN) and Soft-Best-of-$n$ (SBoN), and we introduce Best-of-Poisson (BoP) that provides an efficient, near-exact approximation of the optimal reward-KL divergence policy at inference time. We show that the characteristic pattern of hacking as observed in practice (where the true reward first increases before declining) is an inevitable property of a broad class of inference-time mechanisms, including BoN and BoP. To counter this effect, hedging offers a tactical choice to avoid placing undue confidence in high but potentially misleading proxy reward signals. We introduce HedgeTune, an efficient algorithm to find the optimal inference-time parameter and avoid reward hacking. We demonstrate through experiments that hedging mitigates reward hacking and achieves superior distortion-reward tradeoffs with minimal computational overhead.
- Abstract(参考訳): 大きな言語モデルの性能を改善するための共通のパラダイムは、報酬モデルに最適化することである。
リワードモデルはLSM出力に数値スコアを割り当て、例えば、どの応答がユーザによって好まれるか、最も安全目標に適合しているかを示す。
しかし、報酬モデルは決して完璧ではない。
これらは必然的に、正確性、有用性、安全性などの複雑なデシラタのプロキシとして機能する。
不正な報酬を過度に最適化することで、意図したアライメントの目標を覆し、全体的なパフォーマンスを削減できます。
本研究では,推論時アライメントにおける報酬のハッキングを特徴付けるとともに,代行報酬をヘッジすることでいつ,どのように緩和できるかを実証する。
我々は、この現象をBest-of-n$ (BoN) とSoft-Best-of-n$ (SBoN) で研究し、Best-of-Poisson (BoP) を導入する。
本研究は,BoNやBoPなど,幅広い推論時間機構の必然的特性として,実際に観察されるハッキングの特徴パターン(真の報酬が低下する前に最初に増加する)を示す。
この効果に対抗するために、ヘッジは、高いが誤解を招く可能性のあるプロキシ報酬信号に不適切な信頼を置くことを避けるための戦術的選択を提供する。
HedgeTuneは最適な推論時間パラメータを見つけ、報酬のハッキングを避けるための効率的なアルゴリズムである。
計算オーバーヘッドを最小に抑えながら、報酬のハッキングを緩和し、より優れた歪み-逆トレードオフを実現する実験を通して実証する。
関連論文リスト
- Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models [28.542061921495353]
モデルベースの報酬とルールベースの報酬の2つの主要な報酬パラダイムがある。
ルールベースの報酬には堅牢性がないのに対して、モデルベースの報酬はハッキングに対する報酬に対して脆弱である。
政策モデルと報酬モデルの両方を共同で最適化するRLフレームワークであるCooperを提案する。
我々の実験によると、Cooperは報酬ハッキングを緩和するだけでなく、例えばQwen2.5-1.5B-Instructの平均精度で0.54%向上するエンド・ツー・エンドのRL性能も改善している。
論文 参考訳(メタデータ) (2025-08-07T17:53:56Z) - Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment [54.787826863212146]
推論時間計算は、言語モデルのパフォーマンスをスケールするための強力な軸を提供する。
我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。
我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-27T18:00:08Z) - Sail into the Headwind: Alignment via Robust Rewards and Dynamic Labels against Reward Hacking [36.69993567249251]
本稿では,プライオリティデータセットを用いた初期モデルの改善を目的とした,オフラインのプライオリティ最適化における報酬ハックについて検討する。
我々は,データセットの統計的変動から生じる報奨ハッキングの2つのタイプを同定した: 選択が不適切である場合のタイプI Reward Hackingと,適切な選択があまり好ましくない場合のタイプII Reward Hackingである。
多くの(主ストリームまたは理論的な)選好最適化手法が、どちらの種類の報奨ハッキングにも悩まされていることを証明している。
論文 参考訳(メタデータ) (2024-12-12T18:34:47Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment [7.349727826230864]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好に合わせてLLM(Large Language Models)を調整するための効果的な戦略であることが示されている。
報酬モデルは真の目的に対する不完全なプロキシであるため、その価値を過度に最適化することは、真の目的に対するパフォーマンスを損なう可能性がある。
本稿では,最小ベイズリスク(MBR)目標を近接正規化項として組み込むことで,推論時の報酬ハッキングを緩和することを目的としたBoNの変種を提案する。
論文 参考訳(メタデータ) (2024-04-01T11:26:50Z) - Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking [11.589217788048964]
状態に対する代償と真報酬の相関に基づく報酬ハッキングの定義を導入する。
我々は,参照ポリシーの正規化が報酬ハッキングを効果的に防止できることを理論的に示す。
論文 参考訳(メタデータ) (2024-03-05T18:22:15Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。
提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。
いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文 参考訳(メタデータ) (2021-03-08T03:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。