論文の概要: ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method
for Aligning Large Language Models
- arxiv url: http://arxiv.org/abs/2310.10505v2
- Date: Tue, 17 Oct 2023 06:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 10:47:13.494928
- Title: ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method
for Aligning Large Language Models
- Title(参考訳): remax: 大きな言語モデルを調整するためのシンプルで効果的で効率的な強化学習法
- Authors: Ziniu Li, Tian Xu, Yushun Zhang, Yang Yu, Ruoyu Sun, Zhi-Quan Luo
- Abstract要約: 本研究では,ReMaxと呼ばれるRLHF(Reinforcement Learning from Human Feedback)のためのアルゴリズムを開発した。
ReMaxのアルゴリズム設計は、有名なアルゴリズムREINFORCEをベースにしているが、新しい分散還元技術を備えている。
PPOがLlama2 (7B)のトレーニングに余裕があると仮定しても、ReMaxの約2倍の速度で動作可能である。
- 参考スコア(独自算出の注目度): 32.74806281650068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment is of critical importance for training large language models
(LLMs). The predominant strategy to address this is through Reinforcement
Learning from Human Feedback (RLHF), where PPO serves as the de-facto
algorithm. Yet, PPO is known to suffer from computational inefficiency, which
is a challenge that this paper aims to address. We identify three important
properties in RLHF tasks: fast simulation, deterministic transitions, and
trajectory-level rewards, which are not leveraged in PPO. Based on such
observations, we develop a new algorithm tailored for RLHF, called ReMax. The
algorithm design of ReMax is built on a celebrated algorithm REINFORCE but is
equipped with a new variance-reduction technique.
Our method has three-fold advantages over PPO: first, ReMax is simple to
implement and removes many hyper-parameters in PPO, which are scale-sensitive
and laborious to tune. Second, ReMax saves about 50% memory usage in principle.
As a result, PPO runs out-of-memory when fine-tuning a Llama2 (7B) model on
8xA100-40GB GPUs, whereas ReMax can afford training. This memory improvement is
achieved by removing the value model in PPO. Third, based on our calculations,
we find that even assuming PPO can afford the training of Llama2 (7B), it would
still run about 2x slower than ReMax. This is due to the computational overhead
of the value model, which does not exist in ReMax. Importantly, the above
computational improvements do not sacrifice the performance. We hypothesize
these advantages can be maintained in larger-scaled models. Our implementation
of ReMax is available at https://github.com/liziniu/ReMax
- Abstract(参考訳): アライメントは、大きな言語モデル(LLM)のトレーニングにおいて重要である。
この問題に対処する主要な戦略は、PPOがデファクトアルゴリズムとして機能するReinforcement Learning from Human Feedback (RLHF)である。
しかし、PPOは計算不効率に悩まされていることが知られており、これは本論文が目指す課題である。
PPOでは利用できない高速シミュレーション,決定論的遷移,軌道レベルの報酬の3つの重要な特性を同定する。
このような観測に基づいて,ReMaxと呼ばれるRLHFに適した新しいアルゴリズムを開発した。
remaxのアルゴリズム設計は有名なアルゴリズム強化に基づいているが、新しい分散還元技術を備えている。
提案手法はPPOに対して3倍の利点がある: まず、ReMaxは実装が簡単で、PPOの多くのハイパーパラメータを除去する。
第二に、ReMaxは原則として約50%のメモリ使用量を節約する。
その結果、PPO は 8xA100-40GB GPU 上で Llama2 (7B) モデルを微調整するとメモリ不足となる。
このメモリ改善は、PPOの値モデルを削除することにより達成される。
第3に、我々の計算から、PPOがLlama2 (7B)の訓練を受けることができると仮定しても、ReMaxより約2倍遅いことが分かる。
これはReMaxには存在しない値モデルの計算オーバーヘッドが原因である。
重要なことに、上記の計算改善は性能を犠牲にしない。
より大規模なモデルでこれらの利点を維持できると仮定する。
ReMaxの実装はhttps://github.com/liziniu/ReMaxで利用可能です。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
REBELは、生成モデルの時代における最小限のRLアルゴリズムである。
政策最適化の問題を、直接的な政策パラメータ化による相対報酬の回帰に還元する。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。
MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for
LLM Alignment [37.52249093928251]
本稿では,新しい枠組み,相対的フィードバックによる強化学習,新しい軌道方向ポリシー勾配アルゴリズムを提案する。
理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。
実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-09-30T01:23:22Z) - Efficient RLHF: Reducing the Memory Usage of PPO [61.45357428856269]
本稿では,PPOのためのメモリセーブ技術におけるメモリ使用量,性能,トレーニング時間を総合的に分析する。
まず、SFTモデルとRewardモデルを統合し、訓練中にLoRAを動的にオフにすることで、Hydra-RLHFを導入する。
以上の結果から,Hydra-PPOはRLHFをより広く活用するためのシンプルで有望なソリューションであることが示された。
論文 参考訳(メタデータ) (2023-09-01T22:57:20Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Inverse Preference Learning: Preference-based RL without a Reward
Function [34.31087304327075]
Inverse Preference Learning (IPL) は、オフラインの嗜好データから学習するために特別に設計された。
我々の重要な洞察は、固定されたポリシーに対して、$Q$関数は報酬関数に関する全ての情報をエンコードし、効果的に交換可能であることである。
IPLは、トランスフォーマーベースおよび非マルコフ報酬関数を利用するより複雑なアプローチと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-05-24T17:14:10Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Residual Local Feature Network for Efficient Super-Resolution [20.62809970985125]
本研究では,Residual Local Feature Network (RLFN)を提案する。
主なアイデアは、3つの畳み込みレイヤを局所的な特徴学習に使用して、機能の集約を単純化することだ。
さらに,NTIRE 2022の高効率超解像問題において,第1位を獲得した。
論文 参考訳(メタデータ) (2022-05-16T08:46:34Z) - HiPPO: Recurrent Memory with Optimal Polynomial Projections [93.3537706398653]
本稿では,連続信号と離散時系列をベースに投影してオンライン圧縮するための一般フレームワーク(HiPPO)を提案する。
過去の各時間ステップの重要性を示す尺度が与えられた場合、HiPPOは自然なオンライン関数近似問題に対する最適解を生成する。
このフォーマルなフレームワークは、すべての履歴を記憶するために時間をかけてスケールする新しいメモリ更新メカニズム(HiPPO-LegS)を提供する。
論文 参考訳(メタデータ) (2020-08-17T23:39:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。