論文の概要: ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation
- arxiv url: http://arxiv.org/abs/2406.14088v1
- Date: Thu, 20 Jun 2024 08:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:50:31.119900
- Title: ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation
- Title(参考訳): ReaLHF:パラメータ再配置による大規模言語モデルのRLHF学習の最適化
- Authors: Zhiyu Mei, Wei Fu, Kaiwei Li, Guangju Wang, Huanchen Zhang, Yi Wu,
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)アプリケーションを強化するための重要なテクニックである。
本稿では,LLMパラメータをクラスタ内で動的に再分割するパラメータReaLlocationを提案する。
本稿では、RLHFトレーニングのための効率的な実行計画を自動的に発見・実行できる先駆的なシステムであるReaLHFを紹介する。
- 参考スコア(独自算出の注目度): 12.321332446941378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) stands as a pivotal technique in empowering large language model (LLM) applications. Since RLHF involves diverse computational workloads and intricate dependencies among multiple LLMs, directly adopting parallelization techniques from supervised training can result in sub-optimal performance. To overcome this limitation, we propose a novel approach named parameter ReaLlocation, which dynamically redistributes LLM parameters in the cluster and adapts parallelization strategies during training. Building upon this idea, we introduce ReaLHF, a pioneering system capable of automatically discovering and running efficient execution plans for RLHF training given the desired algorithmic and hardware configurations. ReaLHF formulates the execution plan for RLHF as an augmented dataflow graph. Based on this formulation, ReaLHF employs a tailored search algorithm with a lightweight cost estimator to discover an efficient execution plan. Subsequently, the runtime engine deploys the selected plan by effectively parallelizing computations and redistributing parameters. We evaluate ReaLHF on the LLaMA-2 models with up to $4\times70$ billion parameters and 128 GPUs. The experiment results showcase ReaLHF's substantial speedups of $2.0-10.6\times$ compared to baselines. Furthermore, the execution plans generated by ReaLHF exhibit an average of $26\%$ performance improvement over heuristic approaches based on Megatron-LM. The source code of ReaLHF is publicly available at https://github.com/openpsi-project/ReaLHF .
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)アプリケーションを強化するための重要なテクニックである。
RLHFは多種多様な計算ワークロードと複数のLLM間の複雑な依存関係を含むため、教師付きトレーニングからの並列化技術を直接適用することで、サブ最適性能が得られる。
この制限を克服するために、パラメータReaLlocationという新しいアプローチを提案し、クラスタ内のLLMパラメータを動的に再分割し、トレーニング中に並列化戦略を適用する。
このアイデアに基づいて、RLHFトレーニングの効率的な実行計画を自動的に検出し、実行することができる先駆的なシステムであるReaLHFを紹介する。
ReaLHFは拡張データフローグラフとしてRLHFの実行計画を定式化する。
この定式化に基づいて、ReaLHFは、効率的な実行計画を見つけるために、軽量なコスト推定器を備えた調整された探索アルゴリズムを用いる。
その後、ランタイムエンジンは、計算を効果的に並列化し、パラメータを再配布することで、選択したプランをデプロイする。
LLaMA-2モデルのReaLHFを最大4ドルで70億ドルのパラメータと128のGPUで評価する。
実験の結果、ReaLHFの実質的なスピードアップはベースラインに比べて2.0-10.6\times$であった。
さらに、ReaLHFが生成した実行計画は、Megatron-LMに基づくヒューリスティックアプローチよりも平均2,6\%$のパフォーマンス改善を示している。
ReaLHFのソースコードはhttps://github.com/openpsi-project/ReaLHFで公開されている。
関連論文リスト
- Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。
RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。
教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:50:39Z) - PERL: Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の好みを結びつける強力な手法であることが証明されている。
本稿では,Huらによって導入されたLoRA(Lo-Rank Adaptation)のパラメータ効率向上手法を用いて,基礎となるモデルを学習するRLHFについて検討する。
PERLは従来のRLHF設定と同等に動作し、高速かつ少ないメモリでトレーニングを行う。
論文 参考訳(メタデータ) (2024-03-15T21:43:46Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - Proxy-RLHF: Decoupling Generation and Alignment in Large Language Model
with Proxy [47.327200425168314]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) が人間の価値と一致することを確実にするための一般的なアプローチである。
本稿では,LLMの生成とアライメントを分離するProxy-RLHFを紹介する。
本手法は他の手法のトレーニングパラメータの1%に匹敵するアライメントのレベルを達成する。
論文 参考訳(メタデータ) (2024-03-07T07:31:00Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - vTrain: A Simulation Framework for Evaluating Cost-effective and
Compute-optimal Large Language Model Training [3.224032543241306]
本稿では, プロファイリング駆動型シミュレータvTrainについて, 効率的かつ費用対効果の高いトレーニングシステム構成を決定する。
いくつかのケーススタディ、例えば最適な訓練並列化戦略を効果的に評価することで、vTrainの実用性を実証する。
論文 参考訳(メタデータ) (2023-11-27T13:35:15Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - HAFLO: GPU-Based Acceleration for Federated Logistic Regression [5.866156163019742]
本稿では,フェデレートラーニング(FLR)の性能向上を目的としたGPUベースのHAFLOを提案する。
HAFLOの中核となる考え方は、FLRが使用する性能クリティカルなホモモルフィック演算子の集合をまとめ、ストレージ、IO、計算の最適化を通じてこれらの演算子の実行を高速化することである。
FLフレームワークであるFATEの高速化は、異種LRでは49.9$times$、同種LRでは88.4$times$を達成している。
論文 参考訳(メタデータ) (2021-07-29T07:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。