Fugu-MT 論文翻訳(概要): Spreeze: High-Throughput Parallel Reinforcement Learning Framework

論文の概要: Spreeze: High-Throughput Parallel Reinforcement Learning Framework

arxiv url: http://arxiv.org/abs/2312.06126v1
Date: Mon, 11 Dec 2023 05:25:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 16:53:15.047136
Title: Spreeze: High-Throughput Parallel Reinforcement Learning Framework
Title（参考訳）: spreeze: 高スループット並列強化学習フレームワーク
Authors: Jing Hou, Guang Chen, Ruiqi Zhang, Zhijun Li, Shangding Gu, Changjun Jiang
Abstract要約: Spreezeは強化学習のための軽量並列フレームワークである。単一のデスクトップハードウェアリソースを効率よく利用し、スループット制限にアプローチする。最大15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートを達成することができる。
参考スコア（独自算出の注目度）: 19.3019166138232
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The promotion of large-scale applications of reinforcement learning (RL) requires efficient training computation. While existing parallel RL frameworks encompass a variety of RL algorithms and parallelization techniques, the excessively burdensome communication frameworks hinder the attainment of the hardware's limit for final throughput and training effects on a single desktop. In this paper, we propose Spreeze, a lightweight parallel framework for RL that efficiently utilizes a single desktop hardware resource to approach the throughput limit. We asynchronously parallelize the experience sampling, network update, performance evaluation, and visualization operations, and employ multiple efficient data transmission techniques to transfer various types of data between processes. The framework can automatically adjust the parallelization hyperparameters based on the computing ability of the hardware device in order to perform efficient large-batch updates. Based on the characteristics of the "Actor-Critic" RL algorithm, our framework uses dual GPUs to independently update the network of actors and critics in order to further improve throughput. Simulation results show that our framework can achieve up to 15,000Hz experience sampling and 370,000Hz network update frame rate using only a personal desktop computer, which is an order of magnitude higher than other mainstream parallel RL frameworks, resulting in a 73% reduction of training time. Our work on fully utilizing the hardware resources of a single desktop computer is fundamental to enabling efficient large-scale distributed RL training.
Abstract（参考訳）: 強化学習(RL)の大規模応用の促進には,効率的な訓練計算が必要である。既存の並列RLフレームワークは様々なRLアルゴリズムと並列化技術を含んでいるが、過度に負担のかかる通信フレームワークは、単一のデスクトップ上での最終的なスループットとトレーニング効果に対するハードウェアの限界の達成を妨げている。本稿では、単一のデスクトップハードウェアリソースを効率的に利用し、スループット限界にアプローチするRLのための軽量並列フレームワークであるSpreezeを提案する。我々は,データサンプリング,ネットワーク更新,性能評価,可視化処理を非同期に並列化し,複数の効率的なデータ伝送技術を用いてプロセス間で様々な種類のデータを転送する。このフレームワークは、ハードウェアデバイスの計算能力に基づいて並列化ハイパーパラメータを自動的に調整し、効率的な大規模バッチ更新を行う。 actor-critic" rlアルゴリズムの特性に基づいて,デュアルgpuを用いてアクターと批評家のネットワークを独立に更新し,スループットをさらに向上させる。シミュレーションの結果、我々のフレームワークは15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートをパーソナルデスクトップコンピュータだけで実現でき、これは他の主流の並列RLフレームワークよりも桁違いに高いので、トレーニング時間を73%削減できることがわかった。単一デスクトップコンピュータのハードウェアリソースをフル活用する作業は,大規模分散RL学習の効率化に不可欠である。

関連論文リスト

RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文参考訳（メタデータ） (2025-12-27T11:14:23Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs [24.96730768606278]
異種対応非同期RLトレーニングシステムであるAReaL-Hexを提案する。ヘテロジニアスGPU上でロールアウト生成とポリシモデルのトレーニングを実行する方法を、効果的にスケジュールする。最大1.50倍のトレーニングスループットと1.46倍のトレーニングコストの削減を提供する。
論文参考訳（メタデータ） (2025-11-02T04:17:30Z)
RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。 RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文参考訳（メタデータ） (2025-10-22T04:19:37Z)
AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文参考訳（メタデータ） (2025-07-02T12:45:34Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [26.103555014247117]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文参考訳（メタデータ） (2025-05-30T07:18:25Z)
LlamaRL: A Distributed Asynchronous Reinforcement Learning Framework for Efficient Large-scale LLM Training [32.575669924032276]
強化学習(RL)は、大規模言語モデル(LLM)の能力向上のための訓練後の最も効果的なアプローチとなっている。本稿では,LlamaRLについて述べる。LlamaRLは大規模LLMの効率的なトレーニングに最適化された,完全に分散された非同期RLフレームワークである。
論文参考訳（メタデータ） (2025-05-29T22:14:15Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
Optimal Parallelization Strategies for Active Flow Control in Deep Reinforcement Learning-Based Computational Fluid Dynamics [29.49913315698914]
Deep Reinforcement Learning (DRL) は、高ダイナミックかつ非線形なアクティブフロー制御(AFC)問題を扱うための有望なアプローチとして登場した。本研究では、DRLに基づくアルゴリズムを並列設定で最適化することに焦点を当てる。並列効率を約49%から約78%に向上させる。
論文参考訳（メタデータ） (2024-02-18T09:07:30Z)
Efficient Asynchronous Federated Learning with Sparsification and Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。 FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。 TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文参考訳（メタデータ） (2023-12-23T07:47:07Z)
Efficient Parallel Reinforcement Learning Framework using the Reactor Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。 Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文参考訳（メタデータ） (2023-12-07T21:19:57Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
Curriculum-based Asymmetric Multi-task Reinforcement Learning [14.5357225087828]
本稿では,複数の強化学習(RL)タスクを完全に処理するための,最初のカリキュラムベースの非対称マルチタスク学習(AMTL)アルゴリズムであるCAMRLを紹介する。カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる負の影響を軽減するため、CAMRLは並列シングルタスクRLと非対称マルチタスクRL(MTRL)間のトレーニングモードを切り替える我々は、Gym-minigrid、Meta-world、Atariビデオゲーム、視覚ベースのPyBulletタスク、RLBenchを含むマルチタスクRLの幅広いベンチマーク実験を行った。
論文参考訳（メタデータ） (2022-11-07T08:05:13Z)
MSRL: Distributed Reinforcement Learning with Dataflow Fragments [16.867322708270116]
強化学習(RL)は多くのエージェントを訓練するが、リソース集約であり、大規模なGPUクラスタにスケールする必要がある。我々は,分散RL学習システムであるMindSpore Reinforcement Learning (MSRL)について述べる。 MSRLは、RLアルゴリズムのトレーニングループから並列計算フラグメントに関数をマッピングする、断片化されたデータフローグラフの新たな抽象化を導入している。
論文参考訳（メタデータ） (2022-10-03T12:34:58Z)
Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文参考訳（メタデータ） (2022-07-29T14:52:47Z)
Parallel Actors and Learners: A Framework for Generating Scalable RL Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文参考訳（メタデータ） (2021-10-03T21:00:53Z)
Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文参考訳（メタデータ） (2021-03-12T00:22:50Z)
Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文参考訳（メタデータ） (2020-12-07T16:38:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。