Fugu-MT 論文翻訳(概要): Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling

論文の概要: Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling

arxiv url: http://arxiv.org/abs/2507.06419v1
Date: Tue, 08 Jul 2025 21:56:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 17:37:43.40212
Title: Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling
Title（参考訳）: Reward Models can improvee Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling
Authors: Pankayaraj Pathmanathan, Furong Huang,
Abstract要約: 本稿では,自己改善型報酬モデルであるREFORMを紹介する。我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
参考スコア（独自算出の注目度）: 27.11560841914813
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reward modeling (RM), which captures human preferences to align large language models (LLMs), is increasingly employed in tasks such as model finetuning, response filtering, and ranking. However, due to the inherent complexity of human preferences and the limited coverage of available datasets, reward models often fail under distributional shifts or adversarial perturbations. Existing approaches for identifying such failure modes typically rely on prior knowledge about preference distributions or failure attributes, limiting their practicality in real-world settings where such information is unavailable. In this work, we propose a tractable, preference-distribution agnostic method for discovering reward model failure modes via reward guided controlled decoding. Building on this, we introduce REFORM, a self-improving reward modeling framework that enhances robustness by using the reward model itself to guide the generation of falsely scored responses. These adversarial examples are then used to augment the training data and patch the reward model's misaligned behavior. We evaluate REFORM on two widely used preference datasets Anthropic Helpful Harmless (HH) and PKU Beavertails and demonstrate that it significantly improves robustness without sacrificing reward quality. Notably, REFORM preserves performance both in direct evaluation and in downstream policy training, and further improves alignment quality by removing spurious correlations.
Abstract（参考訳）: 大規模言語モデル(LLM)の整合性を確保するために人間の好みを捉えるリワードモデリング(RM)は、モデルファインタニング、応答フィルタリング、ランキングといったタスクにますます採用されている。しかしながら、人間の嗜好が本質的に複雑であり、利用可能なデータセットが限られているため、報酬モデルはしばしば分散シフトや逆の摂動の下で失敗する。このような障害モードを識別するための既存のアプローチは、通常、好みの分布や障害属性に関する事前の知識に依存しており、そのような情報が利用できない現実の環境では、それらの実用性を制限する。そこで本研究では,報酬誘導制御復号による報酬モデル故障モードを検出するための,抽出可能な優先分布に依存しない手法を提案する。そこで我々は,自己改善型報酬モデルであるREFORMを導入し,報酬モデル自体を用いて自己改善型報酬モデルを構築した。これらの逆の例は、トレーニングデータを増強し、報酬モデルの不整合行動にパッチを当てるために使用される。我々は、広く使われている2つの選好データセットであるHHとPKU BeavertailsでREFORMを評価し、報酬品質を犠牲にすることなく、ロバスト性を大幅に向上させることを示した。特に、REFORMは、直接評価と下流ポリシートレーニングの両方のパフォーマンスを保ち、スプリアス相関を取り除き、アライメント品質をさらに向上する。

関連論文リスト

Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文参考訳（メタデータ） (2025-06-16T17:59:40Z)
Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs [25.011675414622392]
本研究では,分配シフトに対する報酬モデルの一般化能力を高める新しい手法を提案する。我々は、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成機能を維持するために、テキスト生成損失のスイートを組み込む。実験結果から,導入した正規化手法が学習報酬モデルの精度を著しく向上することが示された。
論文参考訳（メタデータ） (2024-06-14T17:49:59Z)
Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文参考訳（メタデータ） (2024-05-29T17:39:48Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。 InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文参考訳（メタデータ） (2024-02-14T17:49:07Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
A Baseline Analysis of Reward Models' Ability To Accurately Analyze Foundation Models Under Distribution Shift [2.2310395620011945]
我々は、分配シフトによる報酬モデルの性能への影響を評価する。 OODプロンプトと応答による新しい校正パターンと精度低下を示す。我々は、分類によく用いられるOOD検出手法を報酬モデル設定に適用し、これらの分布シフトを検出する。
論文参考訳（メタデータ） (2023-11-21T18:41:26Z)
RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文参考訳（メタデータ） (2023-04-13T18:22:40Z)
Exposing Shallow Heuristics of Relation Extraction Models with Challenge Data [49.378860065474875]
我々は、TACREDで訓練されたSOTA関係抽出(RE)モデルの故障モードを同定する。トレーニングの例として、いくつかの課題データを追加することで、モデルのパフォーマンスが向上する。
論文参考訳（メタデータ） (2020-10-07T21:17:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。