Fugu-MT 論文翻訳(概要): ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models

論文の概要: ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models

arxiv url: http://arxiv.org/abs/2310.10505v2
Date: Tue, 17 Oct 2023 06:39:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 10:47:13.494928
Title: ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models
Title（参考訳）: remax: 大きな言語モデルを調整するためのシンプルで効果的で効率的な強化学習法
Authors: Ziniu Li, Tian Xu, Yushun Zhang, Yang Yu, Ruoyu Sun, Zhi-Quan Luo
Abstract要約: 本研究では,ReMaxと呼ばれるRLHF(Reinforcement Learning from Human Feedback)のためのアルゴリズムを開発した。 ReMaxのアルゴリズム設計は、有名なアルゴリズムREINFORCEをベースにしているが、新しい分散還元技術を備えている。 PPOがLlama2 (7B)のトレーニングに余裕があると仮定しても、ReMaxの約2倍の速度で動作可能である。
参考スコア（独自算出の注目度）: 32.74806281650068
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Alignment is of critical importance for training large language models (LLMs). The predominant strategy to address this is through Reinforcement Learning from Human Feedback (RLHF), where PPO serves as the de-facto algorithm. Yet, PPO is known to suffer from computational inefficiency, which is a challenge that this paper aims to address. We identify three important properties in RLHF tasks: fast simulation, deterministic transitions, and trajectory-level rewards, which are not leveraged in PPO. Based on such observations, we develop a new algorithm tailored for RLHF, called ReMax. The algorithm design of ReMax is built on a celebrated algorithm REINFORCE but is equipped with a new variance-reduction technique. Our method has three-fold advantages over PPO: first, ReMax is simple to implement and removes many hyper-parameters in PPO, which are scale-sensitive and laborious to tune. Second, ReMax saves about 50% memory usage in principle. As a result, PPO runs out-of-memory when fine-tuning a Llama2 (7B) model on 8xA100-40GB GPUs, whereas ReMax can afford training. This memory improvement is achieved by removing the value model in PPO. Third, based on our calculations, we find that even assuming PPO can afford the training of Llama2 (7B), it would still run about 2x slower than ReMax. This is due to the computational overhead of the value model, which does not exist in ReMax. Importantly, the above computational improvements do not sacrifice the performance. We hypothesize these advantages can be maintained in larger-scaled models. Our implementation of ReMax is available at https://github.com/liziniu/ReMax
Abstract（参考訳）: アライメントは、大きな言語モデル(LLM)のトレーニングにおいて重要である。この問題に対処する主要な戦略は、PPOがデファクトアルゴリズムとして機能するReinforcement Learning from Human Feedback (RLHF)である。しかし、PPOは計算不効率に悩まされていることが知られており、これは本論文が目指す課題である。 PPOでは利用できない高速シミュレーション,決定論的遷移,軌道レベルの報酬の3つの重要な特性を同定する。このような観測に基づいて,ReMaxと呼ばれるRLHFに適した新しいアルゴリズムを開発した。 remaxのアルゴリズム設計は有名なアルゴリズム強化に基づいているが、新しい分散還元技術を備えている。提案手法はPPOに対して3倍の利点がある: まず、ReMaxは実装が簡単で、PPOの多くのハイパーパラメータを除去する。第二に、ReMaxは原則として約50%のメモリ使用量を節約する。その結果、PPO は 8xA100-40GB GPU 上で Llama2 (7B) モデルを微調整するとメモリ不足となる。このメモリ改善は、PPOの値モデルを削除することにより達成される。第3に、我々の計算から、PPOがLlama2 (7B)の訓練を受けることができると仮定しても、ReMaxより約2倍遅いことが分かる。これはReMaxには存在しない値モデルの計算オーバーヘッドが原因である。重要なことに、上記の計算改善は性能を犠牲にしない。より大規模なモデルでこれらの利点を維持できると仮定する。 ReMaxの実装はhttps://github.com/liziniu/ReMaxで利用可能です。

関連論文リスト

Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。 ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文参考訳（メタデータ） (2025-07-09T14:29:45Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文参考訳（メタデータ） (2025-02-24T08:11:33Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function [14.7365465149829]
我々は、RLHF/PPO、DPO、KTOを統一するtextbfUNified textbfAlignment (UNA)を提案する。この新たな報酬モデルと最適ポリシーのマッピングにより、UNAは1。 RLHF/PPOの性能は、RL微調整プロセスの単純化、安定化、高速化、メモリ負荷の低減を図りながら向上する。
論文参考訳（メタデータ） (2024-08-27T18:04:07Z)
ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation [12.321332446941378]
Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)アプリケーションを強化するための重要なテクニックである。効率的なRLHFトレーニングのための先駆的システムであるReaLを紹介する。最大700億のパラメータと128のGPUを持つLLaMAモデル上でReaLを評価する。
論文参考訳（メタデータ） (2024-06-20T08:04:07Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
人間のフィードバックからの強化学習(RLHF)は、事前訓練された大言語と視覚言語モデルと人間の嗜好を効果的に一致させる。微調整の計算負担を軽減するため、LoRAのような効率的な手法が導入された。 PE-RLHFセットアップを、要約、無害/重厚な応答生成、UI自動化、視覚的質問応答にまたがる6つの多様なデータセットでベンチマークする。
論文参考訳（メタデータ） (2024-03-15T21:43:46Z)
Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs [29.505270680223003]
ヒューマンフィードバックからの強化学習の形でのAIアライメントは、ハイパフォーマンスな大規模言語モデルにとって重要な要素として扱われている。近年,RLHF の RL 部分の正準法としてPPO ( Proximal Policy Optimization) が位置づけられている。 PPO の多くのコンポーネントは RLHF の文脈では不要であり、より単純な REINFORCE スタイルの最適化は PPO と DPO や RAFT のような新たに提案された "RL-free" 手法の両方より優れていることを示す。
論文参考訳（メタデータ） (2024-02-22T17:52:34Z)
Exploring the impact of low-rank adaptation on the performance, efficiency, and regularization of RLHF [47.960563851948514]
低ランク適応(LoRA)を用いたRLHFの効率的な実装について検討する。本実装は,フルモデル微調整によるAlpacaFarmチェックポイントよりも優れた性能を実現する。我々は、より効率的なRLHFの研究を促進するために、コードと事前訓練されたチェックポイントをリリースする。
論文参考訳（メタデータ） (2023-09-16T17:31:36Z)
Efficient RLHF: Reducing the Memory Usage of PPO [61.45357428856269]
本稿では,PPOのためのメモリセーブ技術におけるメモリ使用量,性能,トレーニング時間を総合的に分析する。まず、SFTモデルとRewardモデルを統合し、訓練中にLoRAを動的にオフにすることで、Hydra-RLHFを導入する。以上の結果から,Hydra-PPOはRLHFをより広く活用するためのシンプルで有望なソリューションであることが示された。
論文参考訳（メタデータ） (2023-09-01T22:57:20Z)
Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文参考訳（メタデータ） (2023-07-11T01:55:24Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。