論文の概要: HARVE: Hacking-Aware Reward-Head Vector Editing for Robust Reward Models
- arxiv url: http://arxiv.org/abs/2606.03131v1
- Date: Tue, 02 Jun 2026 04:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.755146
- Title: HARVE: Hacking-Aware Reward-Head Vector Editing for Robust Reward Models
- Title(参考訳): HARVE:ロバストリワードモデルのためのハック対応リワードベクトル編集
- Authors: Shuang Liu, Yuxuan Bo, Qiuyang Zhao, Caiyue Huang, Xiaorong Chen, Yanguang Liu, Mengnan Du,
- Abstract要約: リワードモデルは、大きな言語モデル(LLM)アライメントの中心であるが、ハックに対する報酬には弱いままである。
HarVEはスカラー報酬モデルのためのトレーニング不要報酬ヘッド編集手法である。
実験により、モデルはハッキングの堅牢性を改善し、微調整ベースラインを上回り、報酬モデルの汎用能力を保っていることが示された。
- 参考スコア(独自算出の注目度): 21.09987641039239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models are central to large language model (LLM) alignment, but they remain vulnerable to reward hacking. To evaluate reward-model robustness, we introduce RewardHackBench containing 13 reward-hacking patterns covering real life high-stakes domains and general settings, and we find severe failures on specific subcategories across eight reward models. To mitigate these failures, we propose HARVE, a training-free reward-head editing method for scalar reward models. Instead of fine-tuning the reward model, HARVE identifies a multi-directional hacking subspace from residual stream directions associated with selected hacking subcategories, and removes the component of the reward-head vector aligned with that subspace. This directly reduces the reward head's sensitivity to hacking-related features using only a small set of contrastive gold-hacked examples, without gradient updates or fine-tuning. Comprehensive experiments across eight reward models indicates that \model improves hacking robustness, outperforms fine-tuning baselines, and preserves reward-models' general capability. Further analyses suggest that reward hacking is better captured as a multidimensional residual-space structure than by isolated surface cues.
- Abstract(参考訳): リワードモデルは、大きな言語モデル(LLM)アライメントの中心であるが、ハックに対する報酬には弱いままである。
報奨モデルロバスト性を評価するために,実生活のハイステイクドメインと一般的な設定を含む13の報奨ハックパターンを含むRewardHackBenchを導入し、8つの報奨モデルにまたがる特定のサブカテゴリに深刻な障害を見出した。
これらの障害を軽減するために,スカラー報酬モデルのためのトレーニング不要報酬ヘッド編集法であるHARVEを提案する。
報酬モデルを微調整する代わりに、HARVEは選択されたハッキングサブカテゴリに関連する残留ストリーム方向から、多方向ハッキングサブスペースを特定し、そのサブスペースに整合した報酬ヘッドベクトルのコンポーネントを除去する。
これにより、グラデーションの更新や微調整なしに、小さなコントラストのある金ハック例だけを使用して、ハッキングに関連する機能に対する報酬ヘッドの感度を直接的に低下させる。
8つの報酬モデルの総合的な実験は、モデルがハッキングの堅牢性を改善し、微調整ベースラインを上回り、報酬モデルの一般的な能力を保っていることを示している。
さらなる分析により、報酬ハッキングは、孤立した表面キューよりも多次元の残留空間構造として捕えられることが示唆された。
関連論文リスト
- IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking [67.20568716300272]
Reinforcement Learning from Human Feedback (RLHF)は強力なLDMアライメントを実現するが、報酬ハッキングを導入することができる。
IR3(Interpretable Reward Reconstruction and Rectification)は,RLHFモデルを用いた暗黙的目標をリバースエンジニアリングし,解釈し,外科的に修復するフレームワークである。
我々は、IR3が地道報酬と0.89の相関を達成し、90%以上の精度でハッキング機能を識別し、元のモデルの3%以内の機能を維持しながら、ハッキングの挙動を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-02-23T01:14:53Z) - Adversarial Reward Auditing for Active Detection and Mitigation of Reward Hacking [69.06218054848803]
本稿では,報酬ハッキングを動的かつ競争的なゲームとして再認識するフレームワークであるAdrial Reward Auditing(ARA)を提案する。
まず、ハッカーポリシーは報酬モデルの脆弱性を発見し、監査人は潜伏表現からのエクスプロイトを検出することを学習する。
ARAはすべてのベースラインの中で最高のアライメントユーティリティトレードオフを実現しています。
論文 参考訳(メタデータ) (2026-02-02T07:34:57Z) - The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation [52.648073272395635]
本稿では、報酬モデルとジェネレータの両方を反復的に更新する逆報酬を持つRLフレームワークであるAdv-GRPOを紹介する。
パラメータ更新を制約するKL正規化とは異なり、学習した報酬は生成元を直接視覚出力に導く。
人的評価では,Flow-GRPO と SD3 がそれぞれ 70.0% と 72.4% の画像品質,美学に優れていた。
論文 参考訳(メタデータ) (2025-11-25T12:35:57Z) - Reward Hacking Mitigation using Verifiable Composite Rewards [5.061948558533868]
Reinforcement Learning from Verifiable Rewards (RLVR)は、最近、大規模言語モデル(LLM)が直接の監督なしに独自の推論を開発することができることを示した。
この研究は、この行動の2つの主要な形態に対処する。
報酬機構を利用するために、事前の推論なしで最終回答を提供する、すなわち、標準でない推論フォーマットを使用する。
論文 参考訳(メタデータ) (2025-09-19T03:40:27Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。