論文の概要: Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure
- arxiv url: http://arxiv.org/abs/2603.11101v1
- Date: Wed, 11 Mar 2026 09:09:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.514253
- Title: Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure
- Title(参考訳): AI-Native Cloud Embodied Intelligence Infrastructureのための数千GPU大規模トレーニングと最適化
- Authors: Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen Sun,
- Abstract要約: 身体知は人工知能(AGI)の鍵となるステップである
私たちは、インテリジェンスを具体化するクラウドベースの1000GPU分散トレーニングプラットフォームをローンチした。
我々はエンドツーエンド評価システムを構築し、トレーニングからシミュレーション、評価まで、クローズドループを作成しました。
- 参考スコア(独自算出の注目度): 23.80884705379074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied intelligence is a key step towards Artificial General Intelligence (AGI), yet its development faces multiple challenges including data, frameworks, infrastructure, and evaluation systems. To address these issues, we have, for the first time in the industry, launched a cloud-based, thousand-GPU distributed training platform for embodied intelligence, built upon the widely adopted LeRobot framework, and have systematically overcome bottlenecks across the entire pipeline. At the data layer, we have restructured the data pipeline to optimize the flow of embodied training data. In terms of training, for the GR00T-N1.5 model, utilizing thousand-GPU clusters and data at the scale of hundreds of millions, the single-round training time has been reduced from 15 hours to just 22 minutes, achieving a 40-fold speedup. At the model layer, by combining variable-length FlashAttention and Data Packing, we have moved from sample redundancy to sequence integration, resulting in a 188% speed increase; π-0.5 attention optimization has accelerated training by 165%; and FP8 quantization has delivered a 140% speedup. On the infrastructure side, relying on high-performance storage, a 3.2T RDMA network, and a Ray-driven elastic AI data lake, we have achieved deep synergy among data, storage, communication, and computation. We have also built an end-to-end evaluation system, creating a closed loop from training to simulation to assessment. This framework has already been fully validated on thousand-GPU clusters, laying a crucial technical foundation for the development and application of next-generation autonomous intelligent robots, and is expected to accelerate the arrival of the era of human-machine integration.
- Abstract(参考訳): 人工知能は人工知能(AGI)の重要なステップだが、その開発はデータ、フレームワーク、インフラストラクチャ、評価システムなど、さまざまな課題に直面している。
これらの問題に対処するために、業界で初めて、広く採用されているLeRobotフレームワーク上に構築され、パイプライン全体のボトルネックを体系的に克服した、クラウドベースの、1000GPU分散トレーニングプラットフォームをローンチしたのです。
データ層では、具体化されたトレーニングデータのフローを最適化するために、データパイプラインを再構築しました。
GR00T-N1.5モデルのトレーニングでは、数千のGPUクラスタと数十億のスケールでデータを活用することで、単一ラウンドのトレーニング時間を15時間から22分に短縮し、40倍のスピードアップを実現している。
モデル層では、可変長FlashAttentionとData Packingを組み合わせることで、サンプル冗長性からシーケンス統合へ移行し、188%のスピード向上を実現し、π-0.5のアテンション最適化によりトレーニングが165%加速し、FP8量子化は140%のスピードアップを実現した。
インフラストラクチャ側では、高性能ストレージ、3.2T RDMAネットワーク、レイ駆動の弾性AIデータレイクを頼りに、データ、ストレージ、通信、計算の深いシナジーを実現しました。
また,エンド・ツー・エンドの評価システムを構築し,トレーニングからシミュレーション,評価に至るまでのクローズドループを構築した。
このフレームワークはすでに数千台のGPUクラスタ上で完全に検証されており、次世代の自律知能ロボットの開発と応用のための重要な技術基盤を築いており、人間と機械の統合の時代が到来するのを加速することが期待されている。
関連論文リスト
- A Pragmatic VLA Foundation Model [66.76609538850478]
我々はLingBot-VLAを開発し、9つの人気のデュアルアームロボット構成から約2万時間のリアルタイムデータを収集した。
我々のモデルは競争相手よりも明らかな優位性を実現し、その強靭な性能と広範な一般化性を示している。
ロボット学習の分野を前進させるために、コード、ベースモデル、ベンチマークデータへのオープンアクセスを提供する。
論文 参考訳(メタデータ) (2026-01-26T17:08:04Z) - Data Scaling Laws for End-to-End Autonomous Driving [83.85463296830743]
16時間から8192時間に及ぶ内部駆動データセット上での簡易エンド・ツー・エンド駆動アーキテクチャの性能評価を行った。
具体的には、目標の性能向上を達成するために、どの程度のトレーニングデータが必要かを調査する。
論文 参考訳(メタデータ) (2025-04-06T03:23:48Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - High Throughput Training of Deep Surrogates from Large Ensemble Runs [38.018735015291156]
ディープサロゲートは一般的に、加速しようとする同じソルバによってゆっくりと生成される限られた量のデータから教師付き方法で訓練される。
シミュレーションの大規模な実行から,これらのモデルのオンライントレーニングを可能にするオープンソースフレームワークを提案する。
熱方程式のサロゲートとして完全に接続されたネットワークのトレーニング実験により,提案手法により,従来のオフライン手順に比べて精度が47%向上し,バッチスループットが13倍向上した8TBのデータを2時間でトレーニングすることが可能となった。
論文 参考訳(メタデータ) (2023-09-28T09:34:52Z) - LearningGroup: A Real-Time Sparse Training on FPGA via Learnable Weight
Grouping for Multi-Agent Reinforcement Learning [2.0625936401496237]
マルチエージェント強化学習(MARL)は,対話型人工知能システムを構築するための強力な技術である。
本稿では,学習グループというリアルタイムスパース学習促進システムを提案する。
本システムでは,スパースデータ生成のサイクル時間とメモリフットプリントを最大5.72倍,6.81倍まで最小化する。
論文 参考訳(メタデータ) (2022-10-29T15:09:34Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z) - Sampling Training Data for Continual Learning Between Robots and the
Cloud [26.116999231118793]
ロボットに搭載され、システムのボトルネックを低減するインテリジェントなサンプリングアルゴリズムであるHarvestNetを紹介します。
これは、道路建設現場の新しいデータセット、自動運転車のフィールドテスト、およびストリーミング顔認識上の機械学習モデルの精度を大幅に改善します。
ベースラインアルゴリズムよりも1.05-2.58倍正確であり、sscalablyは組み込みディープラーニングハードウェア上で動作する。
論文 参考訳(メタデータ) (2020-12-12T05:52:33Z) - Towards Scalable Distributed Training of Deep Learning on Public Cloud
Clusters [30.4449309904155]
分散トレーニングのための新しいトップkスパシフィケーション通信ライブラリを提案する。
CNNやTransformerの既存の最先端システムよりも25%~40%高速であることを示す。
論文 参考訳(メタデータ) (2020-10-20T17:16:29Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。