Fugu-MT 論文翻訳(概要): Efficient RLHF: Reducing the Memory Usage of PPO

論文の概要: Efficient RLHF: Reducing the Memory Usage of PPO

arxiv url: http://arxiv.org/abs/2309.00754v1
Date: Fri, 1 Sep 2023 22:57:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 01:28:20.832967
Title: Efficient RLHF: Reducing the Memory Usage of PPO
Title（参考訳）: 効率的なRLHF:PPOのメモリ使用量を削減する
Authors: Michael Santacroce, Yadong Lu, Han Yu, Yuanzhi Li, Yelong Shen
Abstract要約: 本稿では,PPOのためのメモリセーブ技術におけるメモリ使用量,性能,トレーニング時間を総合的に分析する。まず、SFTモデルとRewardモデルを統合し、訓練中にLoRAを動的にオフにすることで、Hydra-RLHFを導入する。以上の結果から,Hydra-PPOはRLHFをより広く活用するためのシンプルで有望なソリューションであることが示された。
参考スコア（独自算出の注目度）: 61.45357428856269
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning with Human Feedback (RLHF) has revolutionized language modeling by aligning models with human preferences. However, the RL stage, Proximal Policy Optimization (PPO), requires over 3x the memory of Supervised Fine-Tuning (SFT), making it infeasible to use for most practitioners. To address this issue, we present a comprehensive analysis the memory usage, performance, and training time of memory-savings techniques for PPO. We introduce Hydra-RLHF by first integrating the SFT and Reward models and then dynamically turning LoRA "off" during training. Our experiments show: 1. Using LoRA during PPO reduces its memory usage to be smaller than SFT while improving alignment across four public benchmarks, and 2. Hydra-PPO reduces the latency per sample of LoRA-PPO by up to 65% while maintaining its performance. Our results demonstrate that Hydra-PPO is a simple and promising solution for enabling more widespread usage of RLHF.
Abstract（参考訳）: Reinforcement Learning with Human Feedback (RLHF)は、モデルを人間の好みに合わせることで言語モデリングに革命をもたらした。しかし、RLステージであるPPO(Proximal Policy Optimization)は、スーパービジョンファインチューニング(SFT)の3倍以上のメモリを必要とするため、ほとんどの実践者にとって使用できない。本稿では,PPOにおけるメモリ節約手法のメモリ使用量,性能,トレーニング時間を総合的に分析する。まず,SFTモデルとRewardモデルを統合し,トレーニング中にLoRAを動的にオフにすることでHydra-RLHFを導入する。私たちの実験では 1. PPO中にLoRAを使用すると、メモリ使用量がSFTより小さくなり、4つの公開ベンチマーク間のアライメントが改善される。 2. Hydra-PPOは、LoRA-PPOのサンプルあたりのレイテンシを最大65%削減し、性能を維持できる。以上の結果から,Hydra-PPOはRLHFをより広く活用するためのシンプルで有望なソリューションであることが示された。

関連論文リスト

Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。 ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文参考訳（メタデータ） (2025-03-08T07:03:43Z)
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文参考訳（メタデータ） (2025-02-24T08:11:33Z)
Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。 RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文参考訳（メタデータ） (2024-12-08T17:19:48Z)
UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function [14.7365465149829]
我々は、RLHF/PPO、DPO、KTOを統一するtextbfUNified textbfAlignment (UNA)を提案する。この新たな報酬モデルと最適ポリシーのマッピングにより、UNAは1。 RLHF/PPOの性能は、RL微調整プロセスの単純化、安定化、高速化、メモリ負荷の低減を図りながら向上する。
論文参考訳（メタデータ） (2024-08-27T18:04:07Z)
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。 LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文参考訳（メタデータ） (2024-06-30T08:00:34Z)
Disentangling Length from Quality in Direct Preference Optimization [93.74831404396174]
RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。 RLHFは、冗長性のような人間の嗜好のバイアスを利用することが知られている。我々は,モデル品質の改善を維持しつつ,長さの搾取を防止するための基本的かつ単純な正規化戦略を開発する。
論文参考訳（メタデータ） (2024-03-28T06:03:47Z)
Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
人間のフィードバックからの強化学習(RLHF)は、事前訓練された大言語と視覚言語モデルと人間の嗜好を効果的に一致させる。微調整の計算負担を軽減するため、LoRAのような効率的な手法が導入された。 PE-RLHFセットアップを、要約、無害/重厚な応答生成、UI自動化、視覚的質問応答にまたがる6つの多様なデータセットでベンチマークする。
論文参考訳（メタデータ） (2024-03-15T21:43:46Z)
Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs [29.505270680223003]
ヒューマンフィードバックからの強化学習の形でのAIアライメントは、ハイパフォーマンスな大規模言語モデルにとって重要な要素として扱われている。近年,RLHF の RL 部分の正準法としてPPO ( Proximal Policy Optimization) が位置づけられている。 PPO の多くのコンポーネントは RLHF の文脈では不要であり、より単純な REINFORCE スタイルの最適化は PPO と DPO や RAFT のような新たに提案された "RL-free" 手法の両方より優れていることを示す。
論文参考訳（メタデータ） (2024-02-22T17:52:34Z)
SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文参考訳（メタデータ） (2023-10-25T16:52:00Z)
ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models [30.276168676690045]
ヒトフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)の整合化の鍵となる。本稿では,RLHFの3つの特性(高速シミュレーション,決定論的遷移,軌道レベルの報酬)を活用するReMaxを提案する。実装が簡単で、PPOの4つ以上のハイパーパラメータを排除し、GPUメモリ使用量を削減し、トレーニング時間を短縮する。 Mistral-7BモデルにReMaxを適用すると、AlpacaEvalのリーダーボードで94.78%の勝利率、MT-benchで7.739のスコアが得られ、オープンソース7Bモデル向けに新しいSOTAが設定された。
論文参考訳（メタデータ） (2023-10-16T15:25:14Z)
Exploring the impact of low-rank adaptation on the performance, efficiency, and regularization of RLHF [47.960563851948514]
低ランク適応(LoRA)を用いたRLHFの効率的な実装について検討する。本実装は,フルモデル微調整によるAlpacaFarmチェックポイントよりも優れた性能を実現する。我々は、より効率的なRLHFの研究を促進するために、コードと事前訓練されたチェックポイントをリリースする。
論文参考訳（メタデータ） (2023-09-16T17:31:36Z)
Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文参考訳（メタデータ） (2023-07-11T01:55:24Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。