Fugu-MT 論文翻訳(概要): WARM: On the Benefits of Weight Averaged Reward Models

論文の概要: WARM: On the Benefits of Weight Averaged Reward Models

arxiv url: http://arxiv.org/abs/2401.12187v1
Date: Mon, 22 Jan 2024 18:27:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 12:46:14.248815
Title: WARM: On the Benefits of Weight Averaged Reward Models
Title（参考訳）: warm: 重量平均報酬モデルの利点について
Authors: Alexandre Ram\'e, Nino Vieillard, L\'eonard Hussenot, Robert Dadashi, Geoffrey Cideron, Olivier Bachem, Johan Ferret
Abstract要約: Weight Averaged Reward Models (WARM) を提案する。最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
参考スコア（独自算出の注目度）: 63.08179139233774
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Aligning large language models (LLMs) with human preferences through reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit failures in the reward model (RM) to achieve seemingly high rewards without meeting the underlying objectives. We identify two primary challenges when designing RMs to mitigate reward hacking: distribution shifts during the RL process and inconsistencies in human preferences. As a solution, we propose Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then averaging them in the weight space. This strategy follows the observation that fine-tuned weights remain linearly mode connected when sharing the same pre-training. By averaging weights, WARM improves efficiency compared to the traditional ensembling of predictions, while improving reliability under distribution shifts and robustness to preference inconsistencies. Our experiments on summarization tasks, using best-of-N and RL methods, shows that WARM improves the overall quality and alignment of LLM predictions; for example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy RL fine-tuned with a single RM.
Abstract（参考訳）: 大きな言語モデル(LLM)を強化学習(RLHF)を通じて人間の好みで調整することで、LLMは報酬モデル(RM)の失敗を利用して、基礎となる目的を満たすことなく、一見高い報酬を達成できる。報酬ハッキングを緩和するためにRMを設計する際の主な課題は、RLプロセス中の分配シフトと人間の好みの不整合である。提案手法では,まず複数のrmを微調整し,その後,重み空間で平均化する量平均報酬モデル(warm)を提案する。この戦略は、同じ事前訓練を共有する際に、微調整の重みが線形に連結されているという観察に従う。平均的な重み付けにより、WARMは従来の予測のアンサンブルよりも効率を向上し、分散シフトによる信頼性と、優先的不整合に対する堅牢性を改善している。ベスト・オブ・nとrlを用いた要約タスクの実験では、ウォームはllm予測の全体的な品質とアライメントを改善していることを示している。例えば、ウォームで微調整されたポリシーrlは、1つのrmで微調整されたポリシーrlに対して79.4%の勝利率を持つ。

関連論文リスト

Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。 EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文参考訳（メタデータ） (2025-04-17T17:47:15Z)
Entropy-Regularized Process Reward Model [30.279394036823092]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。 KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。 MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-12-15T01:09:23Z)
Post-hoc Reward Calibration: A Case Study on Length Bias [28.266675778940133]
リワードモデル(RM)は、トレーニングデータに突発的な相関を利用してバイアスを発生させることができる。これらのバイアスは、誤った出力ランキング、準最適モデル評価、望ましくない振る舞いの増幅につながる可能性がある。本稿では、追加データやトレーニングを使わずにバイアスを修正するという課題に対処する。
論文参考訳（メタデータ） (2024-09-25T22:30:42Z)
WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。 WARPは重量空間のポリシーを3つの異なる段階でマージする。 GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文参考訳（メタデータ） (2024-06-24T16:24:34Z)
Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文参考訳（メタデータ） (2024-06-18T17:58:28Z)
On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [33.331389392270665]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。本稿では,自然言語生成に適した条件付きPM RLHFを提案する。
論文参考訳（メタデータ） (2024-05-26T07:00:05Z)
Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。 PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-04-01T07:49:11Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文参考訳（メタデータ） (2023-10-06T16:59:17Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。