論文の概要: An Adaptive Placement and Parallelism Framework for Accelerating RLHF
Training
- arxiv url: http://arxiv.org/abs/2312.11819v2
- Date: Thu, 25 Jan 2024 02:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 17:27:28.679711
- Title: An Adaptive Placement and Parallelism Framework for Accelerating RLHF
Training
- Title(参考訳): RLHF訓練の高速化のための適応配置と並列化フレームワーク
- Authors: Youshao Xiao, Weichang Wu, Zhenglei Zhou, Fagui Mao, Shangchun Zhao,
Lin Ju, Lei Liang, Xiaolu Zhang, Jun Zhou
- Abstract要約: 本稿では2つの柔軟なモデル配置戦略を提供する適応型モデル配置フレームワークを提案する。
インターリービングと分離の戦略は、現在のSOTAアプローチと比較して11倍の大幅な改善が達成できる。
- 参考スコア(独自算出の注目度): 12.191192247301853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, ChatGPT or InstructGPT like large language models (LLM) has made a
significant impact in the AI world. Many works have attempted to reproduce the
complex InstructGPT's training pipeline, namely Reinforcement Learning with
Human Feedback (RLHF). However, the mainstream distributed RLHF training
methods typically adopt a fixed model placement strategy, referred to as the
Flattening strategy. This strategy treats all four interdependent models
involved in RLHF as a single entity, distributing them across all devices and
applying parallelism techniques designed for a single model, regardless of the
different workloads inherent to each model. As a result, this strategy
exacerbates the generation bottlenecks in the RLHF training and degrades the
overall training efficiency. To address these issues, we propose an adaptive
model placement framework that offers two flexible model placement strategies.
The Interleaving strategy helps reduce memory redundancy and communication
costs of RLHF training by placing models without dependencies on exclusive
devices with careful orchestration. On the other hand, the Separation strategy
improves the throughput of model training by separating the training and
inference runtime of the RLHF pipeline with additional shadow models.
Furthermore, our framework provides a simple user interface and allows for the
agile allocation of models across devices in a fine-grained manner for various
training scenarios, involving models of varying sizes and devices of different
scales. Extensive experiments have demonstrated that our Interleaving and
Separation strategies can achieve notable improvements up to 11X, compared to
the current SOTA approaches. The results highlight the effectiveness and
adaptability of our approaches in accelerating the training of distributed
RLHF.
- Abstract(参考訳): 最近、ChatGPTやInstructGPTのような大きな言語モデル(LLM)がAIの世界に大きな影響を与えている。
多くの研究が複雑なInstructGPTのトレーニングパイプライン、すなわちReinforcement Learning with Human Feedback (RLHF)を再現しようと試みている。
しかし、主流の分散RLHFトレーニング手法は一般にフラッテニング戦略と呼ばれる固定モデル配置戦略を採用する。
この戦略は、RLHFに関連する4つの相互依存モデルを1つのエンティティとして扱い、すべてのデバイスに分散し、各モデル固有の異なるワークロードに関係なく、単一のモデル用に設計された並列性技術を適用します。
その結果、この戦略はRLHFトレーニングにおける生成ボトルネックを悪化させ、全体的なトレーニング効率を低下させる。
これらの問題に対処するために,2つの柔軟なモデル配置戦略を提供する適応型モデル配置フレームワークを提案する。
インターリーブ戦略は、注意深いオーケストレーションを伴う専用デバイスに依存せずにモデルを配置することで、rlhfトレーニングのメモリ冗長性と通信コストを削減するのに役立つ。
一方、分離戦略は、RLHFパイプラインのトレーニングと推論ランタイムを追加のシャドウモデルで分離することにより、モデルのトレーニングのスループットを向上させる。
さらに,このフレームワークはシンプルなユーザインターフェースを提供し,さまざまなトレーニングシナリオに対して,さまざまなサイズのモデルや,さまざまなスケールのデバイスを含む細かな方法で,デバイス間のモデルのアジャイル割り当てを可能にします。
大規模な実験により、我々のインターリービング・分離戦略は、現在のSOTAアプローチと比較して11倍の顕著な改善を達成できることが示された。
その結果、分散RLHFのトレーニングを加速する上で、我々のアプローチの有効性と適応性を強調した。
関連論文リスト
- Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。
理論的には,本手法は訓練作業数のサブリニアな後悔を示す。
都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文 参考訳(メタデータ) (2024-08-08T14:46:01Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。
近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。
本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-05T09:18:29Z) - Vertical Federated Learning over Cloud-RAN: Convergence Analysis and
System Optimization [82.12796238714589]
高速かつ正確なモデルアグリゲーションを実現するために,クラウド無線アクセスネットワーク(Cloud-RAN)ベースの垂直FLシステムを提案する。
アップリンクとダウンリンクの両方の伝送を考慮した垂直FLアルゴリズムの収束挙動を特徴付ける。
我々は,連続凸近似と代替凸探索に基づくシステム最適化アルゴリズムを開発した,連系トランシーバとフロントホール量子化設計によるシステム最適化フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-04T09:26:03Z) - Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。
このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。
本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-02-24T08:41:19Z) - Tensor Decomposition based Personalized Federated Learning [12.420951968273574]
Federated Learning(FL)は、ユーザのプライベートデータを収集することなく、確実に協調的なトレーニングを実現する、新しい分散機械学習フレームワークである。
FLの頻繁なコミュニケーションと平均集約戦略により、統計多様性データや大規模モデルへのスケーリングが困難になる。
本稿では,分解に基づくパーソナライズドラーニング(TDPFed)と呼ばれるFLフレームワークを提案する。このフレームワークでは,テンソル化線形層と畳み込み層を持つ新しいテンソル化局所モデルを設計し,通信コストを削減する。
論文 参考訳(メタデータ) (2022-08-27T08:09:14Z) - Learning an Adaptive Forwarding Strategy for Mobile Wireless Networks:
Resource Usage vs. Latency [2.608874253011]
我々は、モバイルネットワークのためのスケーラブルで汎用的な単一コピールーティング戦略を学ぶために、深層強化学習を使用します。
我々の学習した単一コピールーティング戦略は、最適戦略を除いて遅延の点で他のすべての戦略より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-23T01:17:23Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。