論文の概要: WARP: On the Benefits of Weight Averaged Rewarded Policies
- arxiv url: http://arxiv.org/abs/2406.16768v1
- Date: Mon, 24 Jun 2024 16:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-25 14:05:36.911020
- Title: WARP: On the Benefits of Weight Averaged Rewarded Policies
- Title(参考訳): WARP: 平均的償還政策のメリットについて
- Authors: Alexandre Ramé, Johan Ferret, Nino Vieillard, Robert Dadashi, Léonard Hussenot, Pierre-Louis Cedoz, Pier Giuseppe Sessa, Sertan Girgin, Arthur Douillard, Olivier Bachem,
- Abstract要約: ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
- 参考スコア(独自算出の注目度): 66.95013068137115
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) aligns large language models (LLMs) by encouraging their generations to have high rewards, using a reward model trained on human preferences. To prevent the forgetting of pre-trained knowledge, RLHF usually incorporates a KL regularization; this forces the policy to remain close to its supervised fine-tuned initialization, though it hinders the reward optimization. To tackle the trade-off between KL and reward, in this paper we introduce a novel alignment strategy named Weight Averaged Rewarded Policies (WARP). WARP merges policies in the weight space at three distinct stages. First, it uses the exponential moving average of the policy as a dynamic anchor in the KL regularization. Second, it applies spherical interpolation to merge independently fine-tuned policies into a new enhanced one. Third, it linearly interpolates between this merged model and the initialization, to recover features from pre-training. This procedure is then applied iteratively, with each iteration's final model used as an advanced initialization for the next, progressively refining the KL-reward Pareto front, achieving superior rewards at fixed KL. Experiments with GEMMA policies validate that WARP improves their quality and alignment, outperforming other open-source LLMs.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、人間の好みに基づいて訓練された報酬モデルを用いて、世代に高い報酬を与えるよう促すことにより、大きな言語モデル(LLM)を整列させる。
事前訓練された知識の忘れを防止するため、RLHFは通常、KL正規化を取り入れている。
本稿では、KLと報酬のトレードオフに取り組むために、Weight Averaged Rewarded Policies(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
まず、KL正則化における動的アンカーとしてポリシーの指数移動平均を用いる。
第二に、独立に調整されたポリシーを新しい拡張されたポリシーにマージするために球面補間を適用する。
第3に、この統合モデルと初期化を線形に補間し、事前学習から特徴を回復する。
この手順は反復的に適用され、各反復の最終モデルは次回への先進的な初期化として使用され、段階的にKL-逆パレートフロントを精製し、固定KLにおいて優れた報酬を得る。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
関連論文リスト
- Reward Shaping for Inference-Time Alignment: A Stackelberg Game Perspective [33.36936642383929]
簡単な報酬形成手法が最適報酬モデルに効果的に近似できることを示す。
提案手法は平均報酬を継続的に改善し,評価設定の平均値に対して66%以上の利得率を達成する。
論文 参考訳(メタデータ) (2026-01-31T05:45:51Z) - Real-Time Aligned Reward Model beyond Semantics [49.717236911878224]
本稿では,R2M(Real-Time Aligned Reward Model)という軽量なRLHFフレームワークを紹介する。
R2Mは、事前訓練されたLLMの意味表現のみに依存するバニラ報酬モデルを越えている。
この研究は、ポリシーモデルからのフィードバックをリアルタイムで活用することで、報酬モデルの性能を向上させるための有望な新しい方向性を示している。
論文 参考訳(メタデータ) (2026-01-30T07:32:35Z) - APO: Alpha-Divergence Preference Optimization [0.0]
我々は、Csiszar alpha-divergence を用いて、前向きと逆KLの動作を継続的に補間するアンカー付きフレームワークであるAlpha-Divergence Preference Optimization (APO)を紹介する。
我々は、αでパラメータ化された統一勾配力学を導出し、勾配分散特性を解析し、ポリシーの改善と信頼性の両面においてのみ、カバレッジから活用へ移行する実用的な報酬と信頼の保護されたアルファスケジュールを提案する。
論文 参考訳(メタデータ) (2025-12-28T14:51:03Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。
この報酬は、訓練済みの政策を強化学習で微調整するために使われる。
実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文 参考訳(メタデータ) (2025-01-14T17:15:27Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [44.95386817008473]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions [8.90692770076582]
最近提案された報酬条件付き政策(RCP)は、強化学習において魅力的な代替手段を提供する。
従来の手法と比較して,RCPは収束が遅く,収束時に期待される報酬が劣っていることを示す。
我々は、この手法を一般化された余分化と呼び、その利点は、低い報酬に条件付けられた政策に対する負の重み付けが、結果の政策をそれらとより区別することができることである。
論文 参考訳(メタデータ) (2024-06-16T03:43:55Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - COPR: Continual Human Preference Learning via Optimal Policy
Regularization [56.1193256819677]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)と人間の嗜好の整合性を改善するために一般的に用いられる。
本稿では,最適政策理論からインスピレーションを得たCOPR法を提案する。
論文 参考訳(メタデータ) (2024-02-22T02:20:08Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。