論文の概要: Nimbus: A Unified Embodied Synthetic Data Generation Framework
- arxiv url: http://arxiv.org/abs/2601.21449v2
- Date: Mon, 09 Feb 2026 06:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.006029
- Title: Nimbus: A Unified Embodied Synthetic Data Generation Framework
- Title(参考訳): Nimbus:Unified Embodied Synthetic Data Generation Framework
- Authors: Zeyu He, Yuchang Zhang, Yuanzhen Zhou, Miao Tao, Hengjie Li, Hui Wang, Yang Tian, Jia Zeng, Tai Wang, Wenzhe Cai, Yilun Chen, Ning Gao, Jiangmiao Pang,
- Abstract要約: データボリュームと多様性のスケーリングは、インボディードインテリジェンスを一般化するために重要である。
我々は、異種ナビゲーションと操作パイプラインを統合するために設計された統合合成データ生成フレームワークであるNimbusを紹介する。
評価の結果,Nimbusは最適化されていないベースラインに比べてエンドツーエンドのスループットが2~3倍向上していることがわかった。
- 参考スコア(独自算出の注目度): 51.55989844555466
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scaling data volume and diversity is critical for generalizing embodied intelligence. While synthetic data generation offers a scalable alternative to expensive physical data acquisition, existing pipelines remain fragmented and task-specific. This isolation leads to significant engineering inefficiency and system instability, failing to support the sustained, high-throughput data generation required for foundation model training. To address these challenges, we present Nimbus, a unified synthetic data generation framework designed to integrate heterogeneous navigation and manipulation pipelines. Nimbus introduces a modular four-layer architecture featuring a decoupled execution model that separates trajectory planning, rendering, and storage into asynchronous stages. By implementing dynamic pipeline scheduling, global load balancing, distributed fault tolerance, and backend-specific rendering optimizations, the system maximizes resource utilization across CPU, GPU, and I/O resources. Our evaluation demonstrates that Nimbus achieves a 2-3X improvement in end-to-end throughput compared to unoptimized baselines and ensuring robust, long-term operation in large-scale distributed environments. This framework serves as the production backbone for the InternData suite, enabling seamless cross-domain data synthesis.
- Abstract(参考訳): データボリュームと多様性のスケーリングは、インボディードインテリジェンスを一般化するために重要である。
合成データ生成は高価な物理データ取得に代わるスケーラブルな代替手段を提供するが、既存のパイプラインは断片化され、タスク固有のままである。
この分離は、基礎モデルのトレーニングに必要な持続的で高スループットのデータ生成をサポートすることができず、エンジニアリングの非効率性とシステムの不安定性に繋がる。
これらの課題に対処するために、異種ナビゲーションと操作パイプラインを統合するように設計された統合合成データ生成フレームワークであるNimbusを紹介する。
Nimbusは、軌道計画、レンダリング、ストレージを非同期ステージに分離する分離された実行モデルを備えたモジュール型の4層アーキテクチャを導入した。
動的パイプラインスケジューリング、グローバルロードバランシング、分散フォールトトレランス、バックエンド固有のレンダリング最適化を実装することで、システムはCPU、GPU、I/Oリソース間のリソース利用を最大化する。
我々の評価では,Nimbusは最適化されていないベースラインに比べてエンドツーエンドのスループットが2~3倍向上し,大規模分散環境での堅牢で長期の運用が保証されている。
このフレームワークはInternDataスイートのプロダクションバックボーンとして機能し、シームレスなクロスドメインデータ合成を可能にする。
関連論文リスト
- Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis [68.7701048879757]
EvoKernelは、カーネル合成のライフサイクルを自動化する自己進化型エージェントフレームワークである。
ステージ固有のQ値を学び、現在の目標への貢献に基づいて経験を優先する。
モデルの正しさを11.0%から83.0%に改善し、初期ドラフトよりも3.60倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:06Z) - TempoPFN: Synthetic Pre-training of Linear RNNs for Zero-shot Time Series Forecasting [42.2854432715079]
本稿では,線形リカレントニューラルネットワーク(RNN)に基づく時系列基礎モデルであるTempoPFNについて述べる。
このモデルは、状態ウィービングを備えたGatedDeltaProductアーキテクチャを使用して、シーケンスの長さにわたって完全に並列化可能なトレーニングを行う。
論文 参考訳(メタデータ) (2025-10-29T13:27:18Z) - Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - SyGra: A Unified Graph-Based Framework for Scalable Generation, Quality Tagging, and Management of Synthetic Data [0.0]
大規模言語モデル(LLM)のための総合的な合成データ生成フレームワークを提案する。
本手法では,手作業による介入を最小限に抑えた複雑な対話フローをモデル化可能なモジュール型および構成型パイプラインを用いる。
得られたデータセットは、SFTとDPOの両方のユースケースをサポートするフレキシブルなスキーマの下で構成され、多様なトレーニングへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-08-21T10:35:41Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [83.65386456026441]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがる100以上のデータ処理オペレータがバックアップするデータ処理システムである。
データ分析、合成、アノテーション、基礎モデルのポストトレーニングなど、より重要なタスクをサポートする。
このシステムは公開されており、さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - Scalable Modular Synthetic Data Generation for Advancing Aerial Autonomy [2.9005223064604078]
本稿では,自律飛行に適したスケーラブルなAerial Synthetic Data Augmentation (ASDA) フレームワークを提案する。
ASDAは、シーンとデータ拡張を自動的に実行する2つのスクリプト可能なパイプラインを備えた中央データ収集エンジンを拡張している。
多様なデータセットを自動生成する手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-10T04:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。