Fugu-MT 論文翻訳(概要): Reinforcement Learning Optimization for Large-Scale Learning: An Efficient and User-Friendly Scaling Library

論文の概要: Reinforcement Learning Optimization for Large-Scale Learning: An Efficient and User-Friendly Scaling Library

arxiv url: http://arxiv.org/abs/2506.06122v1
Date: Fri, 06 Jun 2025 14:33:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:43.514837
Title: Reinforcement Learning Optimization for Large-Scale Learning: An Efficient and User-Friendly Scaling Library
Title（参考訳）: 大規模学習のための強化学習最適化:効率的でユーザフレンドリーなスケーリングライブラリ
Authors: Weixun Wang, Shaopan Xiong, Gengru Chen, Wei Gao, Sheng Guo, Yancheng He, Ju Huang, Jiaheng Liu, Zhendong Li, Xiaoyang Li, Zichen Liu, Haizhou Zhao, Dakai An, Lunxi Cao, Qiyang Cao, Wanxi Deng, Feilei Du, Yiliang Gu, Jiahe Li, Xiang Li, Mingjie Liu, Yijia Luo, Zihe Liu, Yadao Wang, Pei Wang, Tianyuan Wu, Yanan Wu, Yuheng Zhao, Shuaibing Zhao, Jin Yang, Siran Yang, Yingshui Tan, Huimin Yi, Yuchi Xu, Yujin Yuan, Xingyao Zhang, Lin Qu, Wenbo Su, Wei Wang, Jiamang Wang, Bo Zheng,
Abstract要約: ROLLは、コスト効率が高くフォールトトレラントな大規模トレーニングを目指す技術パイオニア、トレーニングに対する柔軟なコントロールを必要とする開発者、アジャイル実験を求める研究者の3つの主要なユーザグループを対象とする。
参考スコア（独自算出の注目度）: 37.78896862093736
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce ROLL, an efficient, scalable, and user-friendly library designed for Reinforcement Learning Optimization for Large-scale Learning. ROLL caters to three primary user groups: tech pioneers aiming for cost-effective, fault-tolerant large-scale training, developers requiring flexible control over training workflows, and researchers seeking agile experimentation. ROLL is built upon several key modules to serve these user groups effectively. First, a single-controller architecture combined with an abstraction of the parallel worker simplifies the development of the training pipeline. Second, the parallel strategy and data transfer modules enable efficient and scalable training. Third, the rollout scheduler offers fine-grained management of each sample's lifecycle during the rollout stage. Fourth, the environment worker and reward worker support rapid and flexible experimentation with agentic RL algorithms and reward designs. Finally, AutoDeviceMapping allows users to assign resources to different models flexibly across various stages.
Abstract（参考訳）: 大規模学習のための強化学習最適化のために設計された,効率的でスケーラブルでユーザフレンドリなライブラリであるROLLを紹介する。 ROLLは、コスト効率が高くフォールトトレラントな大規模トレーニングを目指す技術パイオニア、トレーニングワークフローに対する柔軟なコントロールを必要とする開発者、アジャイル実験を求める研究者の3つの主要なユーザグループを対象とする。 ROLLは、これらのユーザグループを効果的に機能させるために、いくつかの重要なモジュール上に構築されている。まず、単一コントローラアーキテクチャと並列ワーカーの抽象化を組み合わせることで、トレーニングパイプラインの開発が簡単になる。第二に、並列戦略とデータ転送モジュールは効率的でスケーラブルなトレーニングを可能にする。第3に、ロールアウトスケジューラは、ロールアウト段階で各サンプルのライフサイクルを詳細に管理する。第4に、環境労働者と報酬労働者は、エージェントRLアルゴリズムと報酬設計による迅速かつ柔軟な実験を支援する。最後に、AutoDeviceMappingでは、さまざまなステージにわたって柔軟に異なるモデルにリソースを割り当てることができます。

関連論文リスト

Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-12T17:41:23Z)
DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents [38.0441002097771]
DistRLは、モバイルデバイス制御エージェントのオンラインRLファインチューニングの効率を高めるために設計された、新しいフレームワークである。平均して、DistRLはトレーニング効率を3倍改善し、主要な同期マルチマシンメソッドよりも2.4倍高速なトレーニングデータ収集を可能にする。
論文参考訳（メタデータ） (2024-10-18T18:19:56Z)
Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文参考訳（メタデータ） (2024-06-11T01:16:10Z)
Towards Modular LLMs by Building and Reusing a Library of LoRAs [64.43376695346538]
マルチタスクデータに対して最適なアダプタライブラリを構築する方法について検討する。モデルベースクラスタリング(MBC)を導入し,パラメータの類似性に基づいてタスクをグループ化する手法を提案する。ライブラリを再使用するために,最も関連性の高いアダプタの動的選択を可能にする新しいゼロショットルーティング機構であるArrowを提案する。
論文参考訳（メタデータ） (2024-05-18T03:02:23Z)
Fast Context Adaptation in Cost-Aware Continual Learning [10.515324071327903]
5GとBeyondネットワークは、より複雑な学習エージェントを必要とし、学習プロセス自体が、コミュニケーションや計算リソースのためにユーザと競合することになるかもしれない。一方、学習プロセスは、効率的な戦略に迅速に収束するためのリソースを必要とし、一方、学習プロセスは、ユーザのデータプレーンから可能な限り少ないリソースを取らずに、ユーザのリソースを損なわないように、効率的でなければならない。本稿では,データプレーンに割り当てられたリソースと学習用に確保されたリソースのバランスをとるための動的戦略を提案する。
論文参考訳（メタデータ） (2023-06-06T17:46:48Z)
ConvLab-3: A Flexible Dialogue System Toolkit Based on a Unified Data Format [88.33443450434521]
タスク指向対話(TOD)システムはデジタルアシスタントとして機能し、フライトの予約やレストランの検索といった様々なタスクを通じてユーザを誘導する。 TODシステムを構築するための既存のツールキットは、データ、モデル、実験環境の包括的な配列を提供するのに不足することが多い。本稿では,このギャップを埋めるための多面的対話システムツールキットConvLab-3を紹介する。
論文参考訳（メタデータ） (2022-11-30T16:37:42Z)
SHiFT: An Efficient, Flexible Search Engine for Transfer Learning [16.289623977712086]
トランスファーラーニングは、スクラッチからトレーニングモデルのデータと計算効率の代替品と見なすことができる。本稿では,トランスファー学習のための第1のダウンストリームタスク認識,フレキシブル,効率的なモデル検索エンジンであるSHiFTを提案する。
論文参考訳（メタデータ） (2022-04-04T13:16:46Z)
Efficient Device Scheduling with Multi-Job Federated Learning [64.21733164243781]
本稿では,複数のジョブの並列学習プロセスを実現するための,新しいマルチジョブフェデレーション学習フレームワークを提案する。コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。提案手法は,トレーニング時間(最大8.67倍高速)と精度(最大44.6%高)において,ベースラインアプローチよりも有意に優れていた。
論文参考訳（メタデータ） (2021-12-11T08:05:11Z)
High-performance, Distributed Training of Large-scale Deep Learning Recommendation Models [18.63017668881868]
ディープラーニングレコメンデーションモデル(DLRM)は、Facebookの多くのビジネスクリティカルサービスで使用されている。本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて論じる。我々は、最大12トリリオンパラメータで非常に大きなDLRMを訓練する能力を実証し、以前のシステムよりも解決策に時間の観点から40倍のスピードアップを達成できることを示しています。
論文参考訳（メタデータ） (2021-04-12T02:15:55Z)
rl_reach: Reproducible Reinforcement Learning Experiments for Robotic Reaching Tasks [0.0]
自己完結型のオープンソースで使いやすいソフトウェアパッケージであるrl_reachを紹介します。カスタマイズ可能なロボット到達タスクのための再現可能な強化学習実験を実行するように設計されている。
論文参考訳（メタデータ） (2021-02-09T16:14:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。