論文の概要: RLHFuse: Efficient RLHF Training for Large Language Models with Inter- and Intra-Stage Fusion
- arxiv url: http://arxiv.org/abs/2409.13221v2
- Date: Wed, 25 Sep 2024 22:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 11:18:04.278611
- Title: RLHFuse: Efficient RLHF Training for Large Language Models with Inter- and Intra-Stage Fusion
- Title(参考訳): RLHFuse:段階内核融合を用いた大規模言語モデルの効率的なRLHF訓練
- Authors: Yinmin Zhong, Zili Zhang, Bingyang Wu, Shengyu Liu, Yukun Chen, Changyi Wan, Hanpeng Hu, Lei Xia, Ranchen Ming, Yibo Zhu, Xin Jin,
- Abstract要約: 既存のRLHFシステムは、プロダクションデプロイメントにおけるGPU利用の低さに悩まされている。
RLHFuseは、個々のタスクの合成として、従来のRLHFワークフローのビューを分解する。
RLHFuseは既存の最先端システムと比較してトレーニングのスループットを最大3.7倍に向上させる。
- 参考スコア(独自算出の注目度): 10.165579735221092
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) enhances the alignment between LLMs and human preference. The workflow of RLHF typically involves several models and tasks in a series of distinct stages. Existing RLHF training systems view each task as the smallest execution unit thus overlooking the opportunities for subtask-level optimizations. Due to the intrinsic nature of RLHF training, i.e., the data skewness in the generation stage, and the pipeline bubbles in the training stage, existing RLHF systems suffer from low GPU utilization in production deployments. RLHFuse breaks the traditional view of RLHF workflow as a composition of individual tasks, splitting each task into finer-grained subtasks, and performing stage fusion to improve GPU utilization. RLHFuse contains two key ideas. First, for generation and inference tasks, RLHFuse splits them into sample-level subtasks, enabling efficient inter-stage fusion to mitigate the original generation bottleneck dominated by long-tailed samples. Second, for training tasks, RLHFuse breaks them into subtasks of micro-batches. By leveraging the intuition that pipeline execution can be essentially complemented by another pipeline, RLHFuse performs intra-stage fusion to concurrently execute these subtasks in the training stage with a fused pipeline schedule, resulting in fewer pipeline bubbles. In addition, RLHFuse incorporates a series of system optimizations tailored for each stage of RLHF, making it efficient and scalable for our internal product usage. We evaluate RLHFuse on various popular LLMs and the results show that RLHFuse increases the training throughput by up to 3.7x, compared to existing state-of-the-art systems.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)は、LLMと人間の嗜好の整合性を高める。
RLHFのワークフローは通常、一連の異なる段階におけるいくつかのモデルとタスクを含む。
既存のRLHFトレーニングシステムは、各タスクを最小の実行ユニットと見なしているため、サブタスクレベルの最適化の機会を見越すことができる。
RLHFトレーニングの本質的な性質、すなわち、生成段階でのデータ歪と、トレーニング段階でのパイプラインバブルにより、既存のRLHFシステムは、プロダクションデプロイメントにおけるGPU利用の低さに悩まされる。
RLHFuseは、個々のタスクの合成としてRLHFワークフローの従来のビューを分解し、各タスクをよりきめ細かいサブタスクに分割し、GPU利用を改善するためにステージ融合を実行する。
RLHFuseには2つの重要なアイデアが含まれている。
第一に、生成および推論タスクでは、RLHFuseはそれらをサンプルレベルのサブタスクに分割し、より効率的な段階間融合により、長い尾を持つサンプルが支配する生成ボトルネックを緩和する。
第二に、トレーニングタスクのために、RLHFuseはそれらをマイクロバッチのサブタスクに分割する。
パイプライン実行を基本的に別のパイプラインで補完できるという直感を活用することで、RLHFuseは、トレーニング段階でこれらのサブタスクを同時に実行するためのステージ内融合を実行し、パイプラインスケジュールを融合させ、パイプラインバブルを少なくする。
さらにRLHFuseには,RLHFの各ステージに適した一連のシステム最適化が組み込まれています。
その結果,RLHFuseは既存の最先端システムと比較して,トレーニングのスループットを最大3.7倍に向上させることがわかった。
関連論文リスト
- MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions [46.608747360764035]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合性を示す。
トークンのシーケンスや高レベルの言語構造を含むマクロアクションを学習プロセスに組み込んだ,シンプルで効果的なRLHFフレームワークであるMA-RLHFを提案する。
提案手法は,テキスト要約,対話生成,質問応答,プログラム合成など,様々なモデルサイズやタスクにまたがる広範な実験を通じて検証される。
論文 参考訳(メタデータ) (2024-10-03T17:55:13Z) - HybridFlow: A Flexible and Efficient RLHF Framework [13.80577212781375]
人間のフィードバックからの強化学習は、Large Language Model (LLM)アライメントで広く使われている。
従来のRLはデータフローとしてモデル化することができ、各ノードはニューラルネットワーク(NN)の計算を表す。
RLHFデータフローの柔軟な表現と効率的な実行を可能にするために,シングルコントローラとマルチコントローラのパラダイムをハイブリッド方式で組み合わせたHybridFlowを提案する。
論文 参考訳(メタデータ) (2024-09-28T06:20:03Z) - ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation [12.321332446941378]
Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)アプリケーションを強化するための重要なテクニックである。
本稿では,LLMパラメータをクラスタ内で動的に再分割するパラメータReaLlocationを提案する。
本稿では、RLHFトレーニングのための効率的な実行計画を自動的に発見・実行できる先駆的なシステムであるReaLHFを紹介する。
論文 参考訳(メタデータ) (2024-06-20T08:04:07Z) - RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。
RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。
教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:50:39Z) - Proxy-RLHF: Decoupling Generation and Alignment in Large Language Model
with Proxy [47.327200425168314]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) が人間の価値と一致することを確実にするための一般的なアプローチである。
本稿では,LLMの生成とアライメントを分離するProxy-RLHFを紹介する。
本手法は他の手法のトレーニングパラメータの1%に匹敵するアライメントのレベルを達成する。
論文 参考訳(メタデータ) (2024-03-07T07:31:00Z) - ESRL: Efficient Sampling-based Reinforcement Learning for Sequence
Generation [43.506732624371786]
本稿では,RLを用いたトレーニングシーケンス生成モデルにおいて,サンプリング効率を向上させるための2段階サンプリング手法と動的サンプリング手法を提案する。
実験結果から,ESRLと呼ばれる効率的なサンプリングベースRLは,トレーニング効率とメモリ消費の両方の観点から,すべてのベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2023-08-04T09:35:45Z) - Hypernetworks in Meta-Reinforcement Learning [47.25270748922176]
マルチタスク強化学習(RL)とメタRLは、関連するタスクの分布を一般化することにより、サンプル効率を向上させることを目的としている。
最先端の手法はしばしば、各タスクを個別に学習する退化したソリューションよりも優れている。
Hypernetworksは、退化ソリューションの別々のポリシーを複製し、メタRLに適用できるので、将来性のある道です。
論文 参考訳(メタデータ) (2022-10-20T15:34:52Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。