論文の概要: RRM: Robust Reward Model Training Mitigates Reward Hacking
- arxiv url: http://arxiv.org/abs/2409.13156v1
- Date: Fri, 20 Sep 2024 01:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 11:41:13.329616
- Title: RRM: Robust Reward Model Training Mitigates Reward Hacking
- Title(参考訳): RRM:ロバスト・リワードモデルトレーニングは、リワードハッキングを緩和する
- Authors: Tianqi Liu, Wei Xiong, Jie Ren, Lichang Chen, Junru Wu, Rishabh Joshi, Yang Gao, Jiaming Shen, Zhen Qin, Tianhe Yu, Daniel Sohn, Anastasiia Makarova, Jeremiah Liu, Yuan Liu, Bilal Piot, Abe Ittycheriah, Aviral Kumar, Mohammad Saleh,
- Abstract要約: リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
- 参考スコア(独自算出の注目度): 51.12341734942797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) play a pivotal role in aligning large language models (LLMs) with human preferences. However, traditional RM training, which relies on response pairs tied to specific prompts, struggles to disentangle prompt-driven preferences from prompt-independent artifacts, such as response length and format. In this work, we expose a fundamental limitation of current RM training methods, where RMs fail to effectively distinguish between contextual signals and irrelevant artifacts when determining preferences. To address this, we introduce a causal framework that learns preferences independent of these artifacts and propose a novel data augmentation technique designed to eliminate them. Extensive experiments show that our approach successfully filters out undesirable artifacts, yielding a more robust reward model (RRM). Our RRM improves the performance of a pairwise reward model trained on Gemma-2-9b-it, on RewardBench, increasing accuracy from 80.61% to 84.15%. Additionally, we train two DPO policies using both the RM and RRM, demonstrating that the RRM significantly enhances DPO-aligned policies, improving MT-Bench scores from 7.27 to 8.31 and length-controlled win-rates in AlpacaEval-2 from 33.46% to 52.49%.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
しかし、特定のプロンプトに結びついたレスポンスペアに依存する従来のRMトレーニングでは、応答長やフォーマットなど、プロンプト非依存のアーティファクトからプロンプト駆動の好みを遠ざけるのに苦労している。
本研究では,従来のRMトレーニング手法の基本的制限を明らかにするとともに,好みを決定する際に,RMがコンテキスト信号と無関係なアーティファクトを効果的に区別することができないことを示す。
そこで本稿では,これらのアーティファクトに依存しない好みを学習する因果的枠組みを導入し,それらを排除するために設計された新しいデータ拡張手法を提案する。
大規模な実験により,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデル(RRM)を実現することができた。
我々のRRMは、RewardBench上でGemma-2-9b-itでトレーニングされたペアワイズ報酬モデルの性能を改善し、精度を80.61%から84.15%に向上させる。
さらに、RMとRRMの両方を用いて2つのDPOポリシーを訓練し、RTMがDPOポリシーを大幅に強化し、MT-Benchスコアが7.27から8.31に、AlpacaEval-2が33.46%から52.49%に改善したことを示す。
関連論文リスト
- LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits [56.93583799109029]
本稿では,複数のリワードモデル(RM)を用いてLLMを反復的に学習するLASeRを紹介する。
以上の結果から,複数のRMを最適化することにより,LASeRの繰り返しLLM最適化を向上できることが示唆された。
また、LASeRを用いて緩和可能な複数のRMからの相反する選好の存在を検証する。
論文 参考訳(メタデータ) (2024-10-02T16:46:38Z) - Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文 参考訳(メタデータ) (2024-06-18T17:58:28Z) - MetaRM: Shifted Distributions Alignment via Meta-Learning [52.94381279744458]
言語モデルアライメントにおけるヒューマンフィードバック(RLHF)からの強化学習は、報酬モデル(RM)の能力に依存している
メタラーニングを利用したメタRMを導入し,その環境分布とRMを整合させる手法を提案する。
大規模な実験により、MetaRMは反復RLHF最適化におけるRMの識別能力を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-05-01T10:43:55Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z) - The Trickle-down Impact of Reward (In-)consistency on RLHF [71.37987812944971]
報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T04:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。