Fugu-MT 論文翻訳(概要): An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training

論文の概要: An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training

arxiv url: http://arxiv.org/abs/2312.11819v3
Date: Mon, 14 Oct 2024 11:57:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 23:31:30.572167
Title: An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training
Title（参考訳）: RLHF訓練の高速化のための適応配置と並列化フレームワーク
Authors: Youshao Xiao, Zhenglei Zhou, Fagui Mao, Weichang Wu, Shangchun Zhao, Lin Ju, Lei Liang, Xiaolu Zhang, Jun Zhou,
Abstract要約: 2つの一般的なアジャイルモデル配置戦略を提供するフレキシブルなモデル配置フレームワークを提案する。私たちのフレームワークは、さまざまなトレーニングシナリオにおいて、これらの戦略を簡単にかつ柔軟に設定するための、シンプルなユーザインターフェースとガイドラインを提供します。
参考スコア（独自算出の注目度）: 11.749347656959822
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, ChatGPT or InstructGPT like large language models (LLM) has made a significant impact in the AI world. Many works have attempted to reproduce the complex InstructGPT's training pipeline, namely Reinforcement Learning with Human Feedback (RLHF). However, the mainstream distributed RLHF training methods typically adopt a fixed model placement strategy, referred to as the Co-located strategy. This strategy treats all four interdependent models involved in RLHF as a single entity, distributing them across all devices and applying parallelism techniques designed for a single model, regardless of the workload heterogeneity inherent to each model. As a result, this strategy exacerbates the generation bottlenecks in the RLHF training and degrades the overall training efficiency. To address these issues, we propose a flexible model placement framework that offers two general and agile model placement strategies. The Interleaving strategy helps reduce memory redundancy and communication costs of RLHF training by placing models without dependencies on exclusive devices with careful orchestration. On the other hand, the Disaggregated strategy improves the throughput of model training by separating the training and inference runtime of the RLHF pipeline with additional shadow models. Furthermore, our framework provides a simple user interface and guidelines to easily and flexibly configure these strategies in various training scenarios. Our experiments have shown that our strategy can achieve notable improvements up to 11x, compared to the current state-of-the-art (SOTA) approaches. The results highlight the effectiveness and adaptability of our methods in accelerating the training of distributed RLHF.
Abstract（参考訳）: 最近、ChatGPTやInstructGPTのような大きな言語モデル(LLM)は、AIの世界に大きな影響を与えている。多くの研究が複雑なInstructGPTのトレーニングパイプライン、すなわちReinforcement Learning with Human Feedback (RLHF)を再現しようと試みている。しかし、主流の分散RLHFトレーニング手法は、通常、コロケーション戦略と呼ばれる固定モデル配置戦略を採用する。この戦略は、RLHFに係わる4つの相互依存モデルを1つのエンティティとして扱い、すべてのデバイスに分散し、各モデル固有のワークロードの不均一性に関係なく、単一のモデル用に設計された並列性技術を適用する。その結果、この戦略はRLHFトレーニングにおける生成ボトルネックを悪化させ、全体的なトレーニング効率を低下させる。これらの問題に対処するために,2つの一般的なアジャイルモデル配置戦略を提供するフレキシブルなモデル配置フレームワークを提案する。インターリービング戦略は、RLHFトレーニングのメモリ冗長性と通信コストの低減に役立つ。一方、Disaggregated戦略は、追加のシャドウモデルでRLHFパイプラインのトレーニングと推論ランタイムを分離することで、モデルのトレーニングのスループットを向上させる。さらに,本フレームワークは,様々なトレーニングシナリオにおいて,これらの戦略を簡単にかつ柔軟に設定するためのシンプルなユーザインターフェースとガイドラインを提供する。我々の戦略は、現在のSOTA(State-of-the-art)アプローチと比較して、最大11倍の顕著な改善が達成できることを示した。その結果,分散RLHFの訓練を加速する手法の有効性と適応性を強調した。

関連論文リスト

G-Core: A Simple, Scalable and Balanced RLHF Trainer [35.65011046623611]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルのトレーニングにおいて、ますます一般的なパラダイムになりつつある。これらの課題に対処するために設計された,シンプルでスケーラブルでバランスの取れたRLHFトレーニングフレームワークである textbfG-Core を提案する。
論文参考訳（メタデータ） (2025-07-30T15:55:08Z)
Adaptive Multi-Fidelity Reinforcement Learning for Variance Reduction in Engineering Design Optimization [0.0]
多要素強化学習(Multi-fidelity Reinforcement Learning, RL)フレームワークは、様々な精度とコストの分析モデルを統合することにより、計算資源を効率的に活用する。本研究では,複数の不均一な非階層的低忠実度モデルを高忠実度モデルとともに動的に活用する適応型多忠実RLフレームワークを提案する。提案手法の有効性はオクトコプター設計最適化問題において実証され,2つの低忠実度モデルと高忠実度シミュレータを用いた。
論文参考訳（メタデータ） (2025-03-23T22:29:08Z)
ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文参考訳（メタデータ） (2025-03-08T11:19:48Z)
Accelerating Model-Based Reinforcement Learning with State-Space World Models [18.71404724458449]
強化学習(Reinforcement Learning, RL)は、ロボット学習における強力なアプローチである。しかし、モデルフリーRL(MFRL)は、制御ポリシーをうまく学習するために、多数の環境相互作用を必要とする。状態空間世界モデルを用いたモデルベースRLの高速化手法を提案する。
論文参考訳（メタデータ） (2025-02-27T15:05:25Z)
Revisiting Robust RAG: Do We Still Need Complex Robust Training in the Era of Powerful LLMs? [69.38149239733994]
モデル容量が増大するにつれて、複雑な堅牢なトレーニング戦略が必要かどうかを検討する。モデルがより強力になるにつれて、複雑な堅牢なトレーニングメソッドによってもたらされるパフォーマンス向上が劇的に減少することがわかった。この結果から,RAGシステムはモデルがより強力になるにつれて,よりシンプルなアーキテクチャやトレーニング戦略の恩恵を受けることが示唆された。
論文参考訳（メタデータ） (2025-02-17T03:34:31Z)
Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits [59.30310692855397]
本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案する。 RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つのステージに分解します。次に,各ステージごとに新しいアルゴリズムを開発し,統計的および計算効率の両面で有意な改善を示す。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Heterogeneity-aware Personalized Federated Learning via Adaptive Dual-Agent Reinforcement Learning [15.61141633436468]
フェデレートラーニング(FL)は、複数のクライアントに対して、ローカルデータを共有せずに機械学習モデルを協調的にトレーニングする権限を与える。本稿では,多段階強化学習(RL)機構を用いて,HAPFLと呼ばれる新しい異種性を考慮した個人化フェデレーション学習手法を提案する。複数のベンチマークデータセットに対する実験結果によると、HAPFLは高い精度を達成するだけでなく、トレーニング全体の時間を20.9%から40.4%短縮する。
論文参考訳（メタデータ） (2025-01-28T14:08:57Z)
Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。理論的には,本手法は訓練作業数のサブリニアな後悔を示す。都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文参考訳（メタデータ） (2024-08-08T14:46:01Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。 atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文参考訳（メタデータ） (2024-03-15T17:43:43Z)
Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文参考訳（メタデータ） (2024-03-05T09:18:29Z)
Federated Learning over Hierarchical Wireless Networks: Training Latency Minimization via Submodel Partitioning [15.311309249848739]
階層型独立サブモデルトレーニング(Hierarchical independent submodel training、HIST)は、階層型クラウド-エッジ-クライアントネットワークにおけるこれらの問題に対処することを目的とした新しいFL方法論である。本研究では,HISTを空気上計算(AirComp)で拡張することにより,エッジセル上でのモデルアグリゲーションの効率をより高めることができることを示す。
論文参考訳（メタデータ） (2023-10-27T04:42:59Z)
Vertical Federated Learning over Cloud-RAN: Convergence Analysis and System Optimization [82.12796238714589]
高速かつ正確なモデルアグリゲーションを実現するために,クラウド無線アクセスネットワーク(Cloud-RAN)ベースの垂直FLシステムを提案する。アップリンクとダウンリンクの両方の伝送を考慮した垂直FLアルゴリズムの収束挙動を特徴付ける。我々は,連続凸近似と代替凸探索に基づくシステム最適化アルゴリズムを開発した,連系トランシーバとフロントホール量子化設計によるシステム最適化フレームワークを構築した。
論文参考訳（メタデータ） (2023-05-04T09:26:03Z)
Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2023-02-24T08:41:19Z)
Tensor Decomposition based Personalized Federated Learning [12.420951968273574]
Federated Learning(FL)は、ユーザのプライベートデータを収集することなく、確実に協調的なトレーニングを実現する、新しい分散機械学習フレームワークである。 FLの頻繁なコミュニケーションと平均集約戦略により、統計多様性データや大規模モデルへのスケーリングが困難になる。本稿では,分解に基づくパーソナライズドラーニング(TDPFed)と呼ばれるFLフレームワークを提案する。このフレームワークでは,テンソル化線形層と畳み込み層を持つ新しいテンソル化局所モデルを設計し,通信コストを削減する。
論文参考訳（メタデータ） (2022-08-27T08:09:14Z)
Learning an Adaptive Forwarding Strategy for Mobile Wireless Networks: Resource Usage vs. Latency [2.608874253011]
我々は、モバイルネットワークのためのスケーラブルで汎用的な単一コピールーティング戦略を学ぶために、深層強化学習を使用します。我々の学習した単一コピールーティング戦略は、最適戦略を除いて遅延の点で他のすべての戦略より優れていることを示す。
論文参考訳（メタデータ） (2022-07-23T01:17:23Z)
LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文参考訳（メタデータ） (2022-03-13T10:21:26Z)
Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文参考訳（メタデータ） (2020-12-22T00:45:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。