Fugu-MT 論文翻訳(概要): An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training

論文の概要: An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training

arxiv url: http://arxiv.org/abs/2312.11819v1
Date: Tue, 19 Dec 2023 03:24:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 17:10:25.029737
Title: An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training
Title（参考訳）: RLHF訓練の高速化のための適応配置と並列化フレームワーク
Authors: Youshao Xiao, Weichang Wu, Zhenglei Zhou, Fagui Mao, Shangchun Zhao, Lin Ju, Lei Liang, Xiaolu Zhang, Jun Zhou
Abstract要約: 本稿では2つの柔軟なモデル配置戦略を提供する適応型モデル配置フレームワークを提案する。インターリービングと分離戦略は、現在のSOTA(State-of-the-art)アプローチと比較して、最大11倍の大幅な改善が達成できる。
参考スコア（独自算出の注目度）: 12.191192247301853
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, ChatGPT or InstructGPT like large language models (LLM) has made a significant impact in the AI world. These models are incredibly versatile, capable of performing language tasks on par or even exceeding the capabilities of human experts. Many works have attempted to reproduce the complex InstructGPT's RLHF (Reinforcement Learning with Human Feedback) training pipeline. However, the mainstream distributed RLHF training methods typically adopt a fixed model placement strategy, referred to as the Flattening strategy. This strategy treats all four models involved in RLHF as a single entity and places them on all devices, regardless of their differences. Unfortunately, this strategy exacerbates the generation bottlenecks in the RLHF training and degrades the overall training efficiency. To address these issues, we propose an adaptive model placement framework that offers two flexible model placement strategies. These strategies allow for the agile allocation of models across devices in a fine-grained manner. The Interleaving strategy helps reduce memory redundancy and communication costs during RLHF training. On the other hand, the Separation strategy improves the throughput of model training by separating the training and generation stages of the RLHF pipeline. Notably, this framework seamlessly integrates with other mainstream techniques for acceleration and enables automatic hyperparameter search. Extensive experiments have demonstrated that our Interleaving and Separation strategies can achieve notable improvements up to 11x, compared to the current state-of-the-art (SOTA) approaches. These experiments encompassed a wide range of training scenarios, involving models of varying sizes and devices of different scales. The results highlight the effectiveness and superiority of our approaches in accelerating the training of distributed RLHF.
Abstract（参考訳）: 最近、ChatGPTやInstructGPTのような大きな言語モデル(LLM)がAIの世界に大きな影響を与えている。これらのモデルは非常に多機能で、人間の専門家の能力に匹敵する言語タスクを実行できます。多くの研究が複雑なInstructGPTのRLHF(Reinforcement Learning with Human Feedback)トレーニングパイプラインを再現しようと試みている。しかし、主流の分散RLHFトレーニング手法は一般にフラッテニング戦略と呼ばれる固定モデル配置戦略を採用する。この戦略は、RLHFに関わる4つのモデルを1つのエンティティとして扱い、その違いに関係なく、それらをすべてのデバイスに配置する。残念ながら、この戦略はRLHFトレーニングにおける生成ボトルネックを悪化させ、全体的なトレーニング効率を低下させる。これらの問題に対処するために,2つの柔軟なモデル配置戦略を提供する適応型モデル配置フレームワークを提案する。これらの戦略により、詳細な方法でデバイス間でモデルをアジャイルに割り当てることが可能になる。インターリービング戦略は、RLHFトレーニング時のメモリ冗長性と通信コストを低減するのに役立つ。一方、分離戦略は、rlhfパイプラインのトレーニングと生成段階を分離することにより、モデルのトレーニングのスループットを向上させる。特にこのフレームワークは、他の主流のアクセラレーション技術とシームレスに統合され、ハイパーパラメータの自動検索を可能にする。大規模な実験により、我々のインターリービングと分離戦略は、現在のSOTA(State-of-the-art)アプローチと比較して、最大11倍の顕著な改善を達成できることが示された。これらの実験は、さまざまなサイズのモデルと異なるスケールのデバイスを含む、幅広いトレーニングシナリオを包含していた。その結果、分散RLHFの訓練を加速する上で、我々のアプローチの有効性と優位性を強調した。

関連論文リスト

G-Core: A Simple, Scalable and Balanced RLHF Trainer [35.65011046623611]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルのトレーニングにおいて、ますます一般的なパラダイムになりつつある。これらの課題に対処するために設計された,シンプルでスケーラブルでバランスの取れたRLHFトレーニングフレームワークである textbfG-Core を提案する。
論文参考訳（メタデータ） (2025-07-30T15:55:08Z)
Adaptive Multi-Fidelity Reinforcement Learning for Variance Reduction in Engineering Design Optimization [0.0]
多要素強化学習(Multi-fidelity Reinforcement Learning, RL)フレームワークは、様々な精度とコストの分析モデルを統合することにより、計算資源を効率的に活用する。本研究では,複数の不均一な非階層的低忠実度モデルを高忠実度モデルとともに動的に活用する適応型多忠実RLフレームワークを提案する。提案手法の有効性はオクトコプター設計最適化問題において実証され,2つの低忠実度モデルと高忠実度シミュレータを用いた。
論文参考訳（メタデータ） (2025-03-23T22:29:08Z)
ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文参考訳（メタデータ） (2025-03-08T11:19:48Z)
Accelerating Model-Based Reinforcement Learning with State-Space World Models [18.71404724458449]
強化学習(Reinforcement Learning, RL)は、ロボット学習における強力なアプローチである。しかし、モデルフリーRL(MFRL)は、制御ポリシーをうまく学習するために、多数の環境相互作用を必要とする。状態空間世界モデルを用いたモデルベースRLの高速化手法を提案する。
論文参考訳（メタデータ） (2025-02-27T15:05:25Z)
Revisiting Robust RAG: Do We Still Need Complex Robust Training in the Era of Powerful LLMs? [69.38149239733994]
モデル容量が増大するにつれて、複雑な堅牢なトレーニング戦略が必要かどうかを検討する。モデルがより強力になるにつれて、複雑な堅牢なトレーニングメソッドによってもたらされるパフォーマンス向上が劇的に減少することがわかった。この結果から,RAGシステムはモデルがより強力になるにつれて,よりシンプルなアーキテクチャやトレーニング戦略の恩恵を受けることが示唆された。
論文参考訳（メタデータ） (2025-02-17T03:34:31Z)
Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits [59.30310692855397]
本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案する。 RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つのステージに分解します。次に,各ステージごとに新しいアルゴリズムを開発し,統計的および計算効率の両面で有意な改善を示す。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Heterogeneity-aware Personalized Federated Learning via Adaptive Dual-Agent Reinforcement Learning [15.61141633436468]
フェデレートラーニング(FL)は、複数のクライアントに対して、ローカルデータを共有せずに機械学習モデルを協調的にトレーニングする権限を与える。本稿では,多段階強化学習(RL)機構を用いて,HAPFLと呼ばれる新しい異種性を考慮した個人化フェデレーション学習手法を提案する。複数のベンチマークデータセットに対する実験結果によると、HAPFLは高い精度を達成するだけでなく、トレーニング全体の時間を20.9%から40.4%短縮する。
論文参考訳（メタデータ） (2025-01-28T14:08:57Z)
Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。理論的には,本手法は訓練作業数のサブリニアな後悔を示す。都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文参考訳（メタデータ） (2024-08-08T14:46:01Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。 atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文参考訳（メタデータ） (2024-03-15T17:43:43Z)
Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文参考訳（メタデータ） (2024-03-05T09:18:29Z)
Federated Learning over Hierarchical Wireless Networks: Training Latency Minimization via Submodel Partitioning [15.311309249848739]
階層型独立サブモデルトレーニング(Hierarchical independent submodel training、HIST)は、階層型クラウド-エッジ-クライアントネットワークにおけるこれらの問題に対処することを目的とした新しいFL方法論である。本研究では,HISTを空気上計算(AirComp)で拡張することにより,エッジセル上でのモデルアグリゲーションの効率をより高めることができることを示す。
論文参考訳（メタデータ） (2023-10-27T04:42:59Z)
Vertical Federated Learning over Cloud-RAN: Convergence Analysis and System Optimization [82.12796238714589]
高速かつ正確なモデルアグリゲーションを実現するために,クラウド無線アクセスネットワーク(Cloud-RAN)ベースの垂直FLシステムを提案する。アップリンクとダウンリンクの両方の伝送を考慮した垂直FLアルゴリズムの収束挙動を特徴付ける。我々は,連続凸近似と代替凸探索に基づくシステム最適化アルゴリズムを開発した,連系トランシーバとフロントホール量子化設計によるシステム最適化フレームワークを構築した。
論文参考訳（メタデータ） (2023-05-04T09:26:03Z)
Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2023-02-24T08:41:19Z)
Tensor Decomposition based Personalized Federated Learning [12.420951968273574]
Federated Learning(FL)は、ユーザのプライベートデータを収集することなく、確実に協調的なトレーニングを実現する、新しい分散機械学習フレームワークである。 FLの頻繁なコミュニケーションと平均集約戦略により、統計多様性データや大規模モデルへのスケーリングが困難になる。本稿では,分解に基づくパーソナライズドラーニング(TDPFed)と呼ばれるFLフレームワークを提案する。このフレームワークでは,テンソル化線形層と畳み込み層を持つ新しいテンソル化局所モデルを設計し,通信コストを削減する。
論文参考訳（メタデータ） (2022-08-27T08:09:14Z)
Learning an Adaptive Forwarding Strategy for Mobile Wireless Networks: Resource Usage vs. Latency [2.608874253011]
我々は、モバイルネットワークのためのスケーラブルで汎用的な単一コピールーティング戦略を学ぶために、深層強化学習を使用します。我々の学習した単一コピールーティング戦略は、最適戦略を除いて遅延の点で他のすべての戦略より優れていることを示す。
論文参考訳（メタデータ） (2022-07-23T01:17:23Z)
LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文参考訳（メタデータ） (2022-03-13T10:21:26Z)
Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文参考訳（メタデータ） (2020-12-22T00:45:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。