Fugu-MT 論文翻訳(概要): WARP: On the Benefits of Weight Averaged Rewarded Policies

論文の概要: WARP: On the Benefits of Weight Averaged Rewarded Policies

arxiv url: http://arxiv.org/abs/2406.16768v1
Date: Mon, 24 Jun 2024 16:24:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 14:05:36.911020
Title: WARP: On the Benefits of Weight Averaged Rewarded Policies
Title（参考訳）: WARP: 平均的償還政策のメリットについて
Authors: Alexandre Ramé, Johan Ferret, Nino Vieillard, Robert Dadashi, Léonard Hussenot, Pierre-Louis Cedoz, Pier Giuseppe Sessa, Sertan Girgin, Arthur Douillard, Olivier Bachem,
Abstract要約: ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。 WARPは重量空間のポリシーを3つの異なる段階でマージする。 GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
参考スコア（独自算出の注目度）: 66.95013068137115
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Reinforcement learning from human feedback (RLHF) aligns large language models (LLMs) by encouraging their generations to have high rewards, using a reward model trained on human preferences. To prevent the forgetting of pre-trained knowledge, RLHF usually incorporates a KL regularization; this forces the policy to remain close to its supervised fine-tuned initialization, though it hinders the reward optimization. To tackle the trade-off between KL and reward, in this paper we introduce a novel alignment strategy named Weight Averaged Rewarded Policies (WARP). WARP merges policies in the weight space at three distinct stages. First, it uses the exponential moving average of the policy as a dynamic anchor in the KL regularization. Second, it applies spherical interpolation to merge independently fine-tuned policies into a new enhanced one. Third, it linearly interpolates between this merged model and the initialization, to recover features from pre-training. This procedure is then applied iteratively, with each iteration's final model used as an advanced initialization for the next, progressively refining the KL-reward Pareto front, achieving superior rewards at fixed KL. Experiments with GEMMA policies validate that WARP improves their quality and alignment, outperforming other open-source LLMs.
Abstract（参考訳）: 人間のフィードバックからの強化学習(RLHF)は、人間の好みに基づいて訓練された報酬モデルを用いて、世代に高い報酬を与えるよう促すことにより、大きな言語モデル(LLM)を整列させる。事前訓練された知識の忘れを防止するため、RLHFは通常、KL正規化を取り入れている。本稿では、KLと報酬のトレードオフに取り組むために、Weight Averaged Rewarded Policies(WARP)という新しいアライメント戦略を導入する。 WARPは重量空間のポリシーを3つの異なる段階でマージする。まず、KL正則化における動的アンカーとしてポリシーの指数移動平均を用いる。第二に、独立に調整されたポリシーを新しい拡張されたポリシーにマージするために球面補間を適用する。第3に、この統合モデルと初期化を線形に補間し、事前学習から特徴を回復する。この手順は反復的に適用され、各反復の最終モデルは次回への先進的な初期化として使用され、段階的にKL-逆パレートフロントを精製し、固定KLにおいて優れた報酬を得る。 GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。

関連論文リスト

Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文参考訳（メタデータ） (2025-02-24T08:11:33Z)
FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。この報酬は、訓練済みの政策を強化学習で微調整するために使われる。実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文参考訳（メタデータ） (2025-01-14T17:15:27Z)
Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [44.95386817008473]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文参考訳（メタデータ） (2024-06-27T14:03:49Z)
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions [8.90692770076582]
最近提案された報酬条件付き政策(RCP)は、強化学習において魅力的な代替手段を提供する。従来の手法と比較して,RCPは収束が遅く,収束時に期待される報酬が劣っていることを示す。我々は、この手法を一般化された余分化と呼び、その利点は、低い報酬に条件付けられた政策に対する負の重み付けが、結果の政策をそれらとより区別することができることである。
論文参考訳（メタデータ） (2024-06-16T03:43:55Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文参考訳（メタデータ） (2024-03-28T10:02:10Z)
COPR: Continual Human Preference Learning via Optimal Policy Regularization [56.1193256819677]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)と人間の嗜好の整合性を改善するために一般的に用いられる。本稿では,最適政策理論からインスピレーションを得たCOPR法を提案する。
論文参考訳（メタデータ） (2024-02-22T02:20:08Z)
WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文参考訳（メタデータ） (2024-01-22T18:27:08Z)
Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文参考訳（メタデータ） (2023-12-01T19:26:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。