論文の概要: ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models
- arxiv url: http://arxiv.org/abs/2310.10505v4
- Date: Thu, 16 May 2024 02:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 19:24:18.931994
- Title: ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models
- Title(参考訳): ReMax: 大規模言語モデルを調整するためのシンプルで効果的で効率的な強化学習方法
- Authors: Ziniu Li, Tian Xu, Yushun Zhang, Zhihang Lin, Yang Yu, Ruoyu Sun, Zhi-Quan Luo,
- Abstract要約: ヒトフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)の整合化の鍵となる。
本稿では,RLHFの3つの特性(高速シミュレーション,決定論的遷移,軌道レベルの報酬)を活用するReMaxを提案する。
実装が簡単で、PPOの4つ以上のハイパーパラメータを排除し、GPUメモリ使用量を削減し、トレーニング時間を短縮する。
Mistral-7BモデルにReMaxを適用すると、AlpacaEvalのリーダーボードで94.78%の勝利率、MT-benchで7.739のスコアが得られ、オープンソース7Bモデル向けに新しいSOTAが設定された。
- 参考スコア(独自算出の注目度): 30.276168676690045
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is key to aligning Large Language Models (LLMs), typically paired with the Proximal Policy Optimization (PPO) algorithm. While PPO is a powerful method designed for general reinforcement learning tasks, it is overly sophisticated for LLMs, leading to laborious hyper-parameter tuning and significant computation burdens. To make RLHF efficient, we present ReMax, which leverages 3 properties of RLHF: fast simulation, deterministic transitions, and trajectory-level rewards. These properties are not exploited in PPO, making it less suitable for RLHF. Building on the renowned REINFORCE algorithm, ReMax does not require training an additional value model as in PPO and is further enhanced with a new variance reduction technique. ReMax offers several benefits over PPO: it is simpler to implement, eliminates more than 4 hyper-parameters in PPO, reduces GPU memory usage, and shortens training time. ReMax can save about 46% GPU memory than PPO when training a 7B model and enables training on A800-80GB GPUs without the memory-saving offloading technique needed by PPO. Applying ReMax to a Mistral-7B model resulted in a 94.78% win rate on the AlpacaEval leaderboard and a 7.739 score on MT-bench, setting a new SOTA for open-source 7B models. These results show the effectiveness of ReMax while addressing the limitations of PPO in LLMs.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、一般にPPOアルゴリズムと組み合わせた大規模言語モデル(LLM)を整合させる鍵である。
PPOは一般的な強化学習タスクのために設計された強力な手法であるが、LLMには過度に洗練されており、過度なハイパーパラメータチューニングと計算負荷が増大する。
RLHFを効率的にするために、RLHFの3つの特性(高速なシミュレーション、決定論的遷移、軌道レベルの報酬)を利用するReMaxを提案する。
これらの性質はPPOでは利用されず、RLHFには適さない。
有名なREINFORCEアルゴリズムに基づいて、ReMaxはPPOのような付加価値モデルを訓練する必要がなく、新しい分散還元技術によりさらに拡張されている。
ReMaxは、実装が簡単で、PPOの4つ以上のハイパーパラメータを排除し、GPUメモリ使用量を削減し、トレーニング時間を短縮する。
ReMaxは7Bモデルのトレーニング時にPPOよりも約46%のGPUメモリを節約でき、PPOに必要なメモリ節約技術なしでA800-80GBGPUのトレーニングを可能にする。
ReMaxをMistral-7Bモデルに適用すると、AlpacaEvalのリーダーボードでは94.78%、MT-benchでは7.739の勝利率となり、オープンソース7BモデルではSOTAが新たに設定された。
これらの結果は,LLMにおけるPPOの限界に対処しながらReMaxの有効性を示す。
関連論文リスト
- VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function [14.7365465149829]
我々は、RLHF/PPO、DPO、KTOを統一するtextbfUNified textbfAlignment (UNA)を提案する。
この新たな報酬モデルと最適ポリシーのマッピングにより、UNAは1。
RLHF/PPOの性能は、RL微調整プロセスの単純化、安定化、高速化、メモリ負荷の低減を図りながら向上する。
論文 参考訳(メタデータ) (2024-08-27T18:04:07Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
人間のフィードバックからの強化学習(RLHF)は、事前訓練された大言語と視覚言語モデルと人間の嗜好を効果的に一致させる。
微調整の計算負担を軽減するため、LoRAのような効率的な手法が導入された。
PE-RLHFセットアップを、要約、無害/重厚な応答生成、UI自動化、視覚的質問応答にまたがる6つの多様なデータセットでベンチマークする。
論文 参考訳(メタデータ) (2024-03-15T21:43:46Z) - Back to Basics: Revisiting REINFORCE Style Optimization for Learning
from Human Feedback in LLMs [29.505270680223003]
ヒューマンフィードバックからの強化学習の形でのAIアライメントは、ハイパフォーマンスな大規模言語モデルにとって重要な要素として扱われている。
近年,RLHF の RL 部分の正準法としてPPO ( Proximal Policy Optimization) が位置づけられている。
PPO の多くのコンポーネントは RLHF の文脈では不要であり、より単純な REINFORCE スタイルの最適化は PPO と DPO や RAFT のような新たに提案された "RL-free" 手法の両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:52:34Z) - Exploring the impact of low-rank adaptation on the performance,
efficiency, and regularization of RLHF [47.960563851948514]
低ランク適応(LoRA)を用いたRLHFの効率的な実装について検討する。
本実装は,フルモデル微調整によるAlpacaFarmチェックポイントよりも優れた性能を実現する。
我々は、より効率的なRLHFの研究を促進するために、コードと事前訓練されたチェックポイントをリリースする。
論文 参考訳(メタデータ) (2023-09-16T17:31:36Z) - Efficient RLHF: Reducing the Memory Usage of PPO [61.45357428856269]
本稿では,PPOのためのメモリセーブ技術におけるメモリ使用量,性能,トレーニング時間を総合的に分析する。
まず、SFTモデルとRewardモデルを統合し、訓練中にLoRAを動的にオフにすることで、Hydra-RLHFを導入する。
以上の結果から,Hydra-PPOはRLHFをより広く活用するためのシンプルで有望なソリューションであることが示された。
論文 参考訳(メタデータ) (2023-09-01T22:57:20Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。