Fugu-MT 論文翻訳(概要): ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models

論文の概要: ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models

arxiv url: http://arxiv.org/abs/2310.10505v3
Date: Sun, 17 Dec 2023 02:18:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 19:58:18.801334
Title: ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models
Title（参考訳）: remax: 大きな言語モデルを調整するためのシンプルで効果的で効率的な強化学習法
Authors: Ziniu Li, Tian Xu, Yushun Zhang, Zhihang Lin, Yang Yu, Ruoyu Sun, Zhi-Quan Luo
Abstract要約: 近似ポリシー最適化は、計算の非効率性に苦しむことが知られている。我々は,人間フィードバックからの強化学習に適した新しいアルゴリズムReMaxを開発した。 ReMaxはPPOに対して3倍のアドバンテージを提供する: まず、たった6行のコードで実装するのは簡単である。
参考スコア（独自算出の注目度）: 31.794388973368115
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Alignment is crucial for training large language models. The predominant strategy is Reinforcement Learning from Human Feedback (RLHF), with Proximal Policy Optimization (PPO) as the de-facto algorithm. Yet, PPO is known to struggle with computational inefficiency, a challenge that this paper aims to address. We identify three important properties of RLHF tasks: fast simulation, deterministic transitions, and trajectory-level rewards, which are not leveraged in PPO. Based on these properties, we develop ReMax, a new algorithm tailored for RLHF. The design of ReMax builds on the celebrated algorithm REINFORCE but is enhanced with a new variance-reduction technique. ReMax offers threefold advantages over PPO: first, it is simple to implement with just 6 lines of code. It further eliminates more than 4 hyper-parameters in PPO, which are laborious to tune. Second, ReMax reduces memory usage by about 50%. To illustrate, PPO runs out of memory when fine-tuning a Llama2-7B model on A100-80GB GPUs, whereas ReMax can support the training. Even though memory-efficient techniques (e.g., ZeRO and offload) are employed for PPO to afford training, ReMax can utilize a larger batch size to increase throughput. Third, in terms of wall-clock time, PPO is about twice as slow as ReMax per iteration. Importantly, these improvements do not sacrifice task performance. We hypothesize that these advantages can be maintained in larger-scale models.
Abstract（参考訳）: アライメントは、大きな言語モデルのトレーニングに不可欠です。主な戦略はRLHF(Reinforcement Learning from Human Feedback)であり、PPO(Proximal Policy Optimization)がデファクトアルゴリズムである。しかし、PPOは計算の非効率性に苦しむことで知られており、これは本論文が目指す課題である。 PPOでは利用できない高速シミュレーション、決定論的遷移、軌道レベルの報酬の3つの重要な特性を同定する。これらの特性に基づいて、RLHFに適した新しいアルゴリズムReMaxを開発する。 remaxの設計は、有名なアルゴリズム強化に基づいているが、新しい分散還元法によって強化されている。 remaxはppoよりも3倍の利点を提供している。さらに、チューニングに苦労しているppoの4つ以上のハイパーパラメータを取り除きます。次に、ReMaxはメモリ使用量を約50%削減する。説明として、PPOはA100-80GBのGPU上でLlama2-7Bモデルを微調整する際にメモリが切れている。メモリ効率のよい技術(ZeROやオフロードなど)がPPOのトレーニングに使われているが、ReMaxはより大きなバッチサイズを使用してスループットを向上させることができる。第3に、ウォールクロック時間に関しては、PPOはイテレーション毎のReMaxの約2倍の速度である。重要なことに、これらの改善はタスクパフォーマンスを犠牲にしません。これらの利点はより大規模なモデルで維持できるという仮説を立てる。

関連論文リスト

Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。 ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文参考訳（メタデータ） (2025-07-09T14:29:45Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文参考訳（メタデータ） (2025-02-24T08:11:33Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function [14.7365465149829]
我々は、RLHF/PPO、DPO、KTOを統一するtextbfUNified textbfAlignment (UNA)を提案する。この新たな報酬モデルと最適ポリシーのマッピングにより、UNAは1。 RLHF/PPOの性能は、RL微調整プロセスの単純化、安定化、高速化、メモリ負荷の低減を図りながら向上する。
論文参考訳（メタデータ） (2024-08-27T18:04:07Z)
ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation [12.321332446941378]
Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)アプリケーションを強化するための重要なテクニックである。効率的なRLHFトレーニングのための先駆的システムであるReaLを紹介する。最大700億のパラメータと128のGPUを持つLLaMAモデル上でReaLを評価する。
論文参考訳（メタデータ） (2024-06-20T08:04:07Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
人間のフィードバックからの強化学習(RLHF)は、事前訓練された大言語と視覚言語モデルと人間の嗜好を効果的に一致させる。微調整の計算負担を軽減するため、LoRAのような効率的な手法が導入された。 PE-RLHFセットアップを、要約、無害/重厚な応答生成、UI自動化、視覚的質問応答にまたがる6つの多様なデータセットでベンチマークする。
論文参考訳（メタデータ） (2024-03-15T21:43:46Z)
Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs [29.505270680223003]
ヒューマンフィードバックからの強化学習の形でのAIアライメントは、ハイパフォーマンスな大規模言語モデルにとって重要な要素として扱われている。近年,RLHF の RL 部分の正準法としてPPO ( Proximal Policy Optimization) が位置づけられている。 PPO の多くのコンポーネントは RLHF の文脈では不要であり、より単純な REINFORCE スタイルの最適化は PPO と DPO や RAFT のような新たに提案された "RL-free" 手法の両方より優れていることを示す。
論文参考訳（メタデータ） (2024-02-22T17:52:34Z)
Exploring the impact of low-rank adaptation on the performance, efficiency, and regularization of RLHF [47.960563851948514]
低ランク適応(LoRA)を用いたRLHFの効率的な実装について検討する。本実装は,フルモデル微調整によるAlpacaFarmチェックポイントよりも優れた性能を実現する。我々は、より効率的なRLHFの研究を促進するために、コードと事前訓練されたチェックポイントをリリースする。
論文参考訳（メタデータ） (2023-09-16T17:31:36Z)
Efficient RLHF: Reducing the Memory Usage of PPO [61.45357428856269]
本稿では,PPOのためのメモリセーブ技術におけるメモリ使用量,性能,トレーニング時間を総合的に分析する。まず、SFTモデルとRewardモデルを統合し、訓練中にLoRAを動的にオフにすることで、Hydra-RLHFを導入する。以上の結果から,Hydra-PPOはRLHFをより広く活用するためのシンプルで有望なソリューションであることが示された。
論文参考訳（メタデータ） (2023-09-01T22:57:20Z)
Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文参考訳（メタデータ） (2023-07-11T01:55:24Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。