Fugu-MT 論文翻訳(概要): Adversarial Training of Reward Models

論文の概要: Adversarial Training of Reward Models

arxiv url: http://arxiv.org/abs/2504.06141v2
Date: Fri, 11 Apr 2025 18:28:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 12:42:37.378704
Title: Adversarial Training of Reward Models
Title（参考訳）: 逆行モデルの逆行訓練
Authors: Alexander Bukharin, Haifeng Qian, Shengyang Sun, Adithya Renduchintala, Soumye Singhal, Zhilin Wang, Oleksii Kuchaiev, Olivier Delalleau, Tuo Zhao,
Abstract要約: 本稿では,対戦型学習フレームワークAdv-RMについて紹介する。強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
参考スコア（独自算出の注目度）: 74.17196154247964
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reward modeling has emerged as a promising approach for the scalable alignment of language models. However, contemporary reward models (RMs) often lack robustness, awarding high rewards to low-quality, out-of-distribution (OOD) samples. This can lead to reward hacking, where policies exploit unintended shortcuts to maximize rewards, undermining alignment. To address this challenge, we introduce Adv-RM, a novel adversarial training framework that automatically identifies adversarial examples -- responses that receive high rewards from the target RM but are OOD and of low quality. By leveraging reinforcement learning, Adv-RM trains a policy to generate adversarial examples that reliably expose vulnerabilities in large state-of-the-art reward models such as Nemotron 340B RM. Incorporating these adversarial examples into the reward training process improves the robustness of RMs, mitigating reward hacking and enhancing downstream performance in RLHF. We demonstrate that Adv-RM significantly outperforms conventional RM training, increasing stability and enabling more effective RLHF training in both synthetic and real-data settings.
Abstract（参考訳）: 言語モデルのスケーラブルなアライメントのための有望なアプローチとして、リワードモデリングが登場した。しかし、現代の報酬モデル(RM)は堅牢性に欠けることが多く、低品質のオフ・オブ・ディストリビューション(OOD)サンプルに高い報酬を与える。ポリシーは意図しないショートカットを利用して報酬を最大化し、アライメントを損なう。この課題に対処するために、ターゲットRMから高い報酬を受けるが、OODであり、品質の低い、敵のサンプルを自動的に識別する、新しい敵のトレーニングフレームワークであるAdv-RMを紹介した。強化学習を活用することで、Adv-RMは、Nemotron 340B RMのような最先端の大規模な報酬モデルにおける脆弱性を確実に暴露する敵の例を生成するポリシーを訓練する。これらの逆例を報酬訓練プロセスに組み込むことで、RMの堅牢性を向上し、報酬ハッキングを緩和し、RLHFの下流性能を向上させる。本稿では,Adv-RMが従来のRMトレーニングより有意に優れ,安定性が向上し,合成データと実データの両方でより効果的なRLHFトレーニングが可能になることを実証する。

関連論文リスト

Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。 EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文参考訳（メタデータ） (2025-04-17T17:47:15Z)
Probabilistic Uncertain Reward Model: A Natural Generalization of Bradley-Terry Reward Model [27.40414952747553]
本稿では,報酬ハッキングに対処する確率的不確実リワードモデル(PURM)を提案する。 PURMは、最終的な報酬性能を改善しつつ、報酬ハッキングの開始を著しく遅らせることを示す実験である。
論文参考訳（メタデータ） (2025-03-28T14:39:52Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文参考訳（メタデータ） (2025-02-04T19:37:35Z)
Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-18T02:35:41Z)
Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。 SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文参考訳（メタデータ） (2024-09-10T22:57:58Z)
WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文参考訳（メタデータ） (2024-01-22T18:27:08Z)
The Trickle-down Impact of Reward (In-)consistency on RLHF [71.37987812944971]
報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。 RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
論文参考訳（メタデータ） (2023-09-28T04:05:13Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Transferring Adversarial Robustness Through Robust Representation Matching [3.5934248574481717]
アドリアリトレーニングは、ニューラルネットワークに対するこのような攻撃に確実に耐えられる数少ない既知の防御の1つである。本稿では,ロバスト表現マッチング(RRM, Robust Representation Matching)を提案する。 RRMは、モデル性能と対向訓練時間の両方において優れている。
論文参考訳（メタデータ） (2022-02-21T05:15:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。