論文の概要: Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling
- arxiv url: http://arxiv.org/abs/2507.06419v1
- Date: Tue, 08 Jul 2025 21:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.40212
- Title: Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling
- Title(参考訳): Reward Models can improvee Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling
- Authors: Pankayaraj Pathmanathan, Furong Huang,
- Abstract要約: 本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
- 参考スコア(独自算出の注目度): 27.11560841914813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward modeling (RM), which captures human preferences to align large language models (LLMs), is increasingly employed in tasks such as model finetuning, response filtering, and ranking. However, due to the inherent complexity of human preferences and the limited coverage of available datasets, reward models often fail under distributional shifts or adversarial perturbations. Existing approaches for identifying such failure modes typically rely on prior knowledge about preference distributions or failure attributes, limiting their practicality in real-world settings where such information is unavailable. In this work, we propose a tractable, preference-distribution agnostic method for discovering reward model failure modes via reward guided controlled decoding. Building on this, we introduce REFORM, a self-improving reward modeling framework that enhances robustness by using the reward model itself to guide the generation of falsely scored responses. These adversarial examples are then used to augment the training data and patch the reward model's misaligned behavior. We evaluate REFORM on two widely used preference datasets Anthropic Helpful Harmless (HH) and PKU Beavertails and demonstrate that it significantly improves robustness without sacrificing reward quality. Notably, REFORM preserves performance both in direct evaluation and in downstream policy training, and further improves alignment quality by removing spurious correlations.
- Abstract(参考訳): 大規模言語モデル(LLM)の整合性を確保するために人間の好みを捉えるリワードモデリング(RM)は、モデルファインタニング、応答フィルタリング、ランキングといったタスクにますます採用されている。
しかしながら、人間の嗜好が本質的に複雑であり、利用可能なデータセットが限られているため、報酬モデルはしばしば分散シフトや逆の摂動の下で失敗する。
このような障害モードを識別するための既存のアプローチは、通常、好みの分布や障害属性に関する事前の知識に依存しており、そのような情報が利用できない現実の環境では、それらの実用性を制限する。
そこで本研究では,報酬誘導制御復号による報酬モデル故障モードを検出するための,抽出可能な優先分布に依存しない手法を提案する。
そこで我々は,自己改善型報酬モデルであるREFORMを導入し,報酬モデル自体を用いて自己改善型報酬モデルを構築した。
これらの逆の例は、トレーニングデータを増強し、報酬モデルの不整合行動にパッチを当てるために使用される。
我々は、広く使われている2つの選好データセットであるHHとPKU BeavertailsでREFORMを評価し、報酬品質を犠牲にすることなく、ロバスト性を大幅に向上させることを示した。
特に、REFORMは、直接評価と下流ポリシートレーニングの両方のパフォーマンスを保ち、スプリアス相関を取り除き、アライメント品質をさらに向上する。
関連論文リスト
- RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。