論文の概要: ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method
for Aligning Large Language Models
- arxiv url: http://arxiv.org/abs/2310.10505v3
- Date: Sun, 17 Dec 2023 02:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:58:18.801334
- Title: ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method
for Aligning Large Language Models
- Title(参考訳): remax: 大きな言語モデルを調整するためのシンプルで効果的で効率的な強化学習法
- Authors: Ziniu Li, Tian Xu, Yushun Zhang, Zhihang Lin, Yang Yu, Ruoyu Sun,
Zhi-Quan Luo
- Abstract要約: 近似ポリシー最適化は、計算の非効率性に苦しむことが知られている。
我々は,人間フィードバックからの強化学習に適した新しいアルゴリズムReMaxを開発した。
ReMaxはPPOに対して3倍のアドバンテージを提供する: まず、たった6行のコードで実装するのは簡単である。
- 参考スコア(独自算出の注目度): 31.794388973368115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment is crucial for training large language models. The predominant
strategy is Reinforcement Learning from Human Feedback (RLHF), with Proximal
Policy Optimization (PPO) as the de-facto algorithm. Yet, PPO is known to
struggle with computational inefficiency, a challenge that this paper aims to
address. We identify three important properties of RLHF tasks: fast simulation,
deterministic transitions, and trajectory-level rewards, which are not
leveraged in PPO. Based on these properties, we develop ReMax, a new algorithm
tailored for RLHF. The design of ReMax builds on the celebrated algorithm
REINFORCE but is enhanced with a new variance-reduction technique. ReMax offers
threefold advantages over PPO: first, it is simple to implement with just 6
lines of code. It further eliminates more than 4 hyper-parameters in PPO, which
are laborious to tune. Second, ReMax reduces memory usage by about 50%. To
illustrate, PPO runs out of memory when fine-tuning a Llama2-7B model on
A100-80GB GPUs, whereas ReMax can support the training. Even though
memory-efficient techniques (e.g., ZeRO and offload) are employed for PPO to
afford training, ReMax can utilize a larger batch size to increase throughput.
Third, in terms of wall-clock time, PPO is about twice as slow as ReMax per
iteration. Importantly, these improvements do not sacrifice task performance.
We hypothesize that these advantages can be maintained in larger-scale models.
- Abstract(参考訳): アライメントは、大きな言語モデルのトレーニングに不可欠です。
主な戦略はRLHF(Reinforcement Learning from Human Feedback)であり、PPO(Proximal Policy Optimization)がデファクトアルゴリズムである。
しかし、PPOは計算の非効率性に苦しむことで知られており、これは本論文が目指す課題である。
PPOでは利用できない高速シミュレーション、決定論的遷移、軌道レベルの報酬の3つの重要な特性を同定する。
これらの特性に基づいて、RLHFに適した新しいアルゴリズムReMaxを開発する。
remaxの設計は、有名なアルゴリズム強化に基づいているが、新しい分散還元法によって強化されている。
remaxはppoよりも3倍の利点を提供している。
さらに、チューニングに苦労しているppoの4つ以上のハイパーパラメータを取り除きます。
次に、ReMaxはメモリ使用量を約50%削減する。
説明として、PPOはA100-80GBのGPU上でLlama2-7Bモデルを微調整する際にメモリが切れている。
メモリ効率のよい技術(ZeROやオフロードなど)がPPOのトレーニングに使われているが、ReMaxはより大きなバッチサイズを使用してスループットを向上させることができる。
第3に、ウォールクロック時間に関しては、PPOはイテレーション毎のReMaxの約2倍の速度である。
重要なことに、これらの改善はタスクパフォーマンスを犠牲にしません。
これらの利点はより大規模なモデルで維持できるという仮説を立てる。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
REBELは、生成モデルの時代における最小限のRLアルゴリズムである。
政策最適化の問題を、直接的な政策パラメータ化による相対報酬の回帰に還元する。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。
MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for
LLM Alignment [37.52249093928251]
本稿では,新しい枠組み,相対的フィードバックによる強化学習,新しい軌道方向ポリシー勾配アルゴリズムを提案する。
理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。
実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-09-30T01:23:22Z) - Efficient RLHF: Reducing the Memory Usage of PPO [61.45357428856269]
本稿では,PPOのためのメモリセーブ技術におけるメモリ使用量,性能,トレーニング時間を総合的に分析する。
まず、SFTモデルとRewardモデルを統合し、訓練中にLoRAを動的にオフにすることで、Hydra-RLHFを導入する。
以上の結果から,Hydra-PPOはRLHFをより広く活用するためのシンプルで有望なソリューションであることが示された。
論文 参考訳(メタデータ) (2023-09-01T22:57:20Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Inverse Preference Learning: Preference-based RL without a Reward
Function [34.31087304327075]
Inverse Preference Learning (IPL) は、オフラインの嗜好データから学習するために特別に設計された。
我々の重要な洞察は、固定されたポリシーに対して、$Q$関数は報酬関数に関する全ての情報をエンコードし、効果的に交換可能であることである。
IPLは、トランスフォーマーベースおよび非マルコフ報酬関数を利用するより複雑なアプローチと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-05-24T17:14:10Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Residual Local Feature Network for Efficient Super-Resolution [20.62809970985125]
本研究では,Residual Local Feature Network (RLFN)を提案する。
主なアイデアは、3つの畳み込みレイヤを局所的な特徴学習に使用して、機能の集約を単純化することだ。
さらに,NTIRE 2022の高効率超解像問題において,第1位を獲得した。
論文 参考訳(メタデータ) (2022-05-16T08:46:34Z) - HiPPO: Recurrent Memory with Optimal Polynomial Projections [93.3537706398653]
本稿では,連続信号と離散時系列をベースに投影してオンライン圧縮するための一般フレームワーク(HiPPO)を提案する。
過去の各時間ステップの重要性を示す尺度が与えられた場合、HiPPOは自然なオンライン関数近似問題に対する最適解を生成する。
このフォーマルなフレームワークは、すべての履歴を記憶するために時間をかけてスケールする新しいメモリ更新メカニズム(HiPPO-LegS)を提供する。
論文 参考訳(メタデータ) (2020-08-17T23:39:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。