論文の概要: GigaWorld-0: World Models as Data Engine to Empower Embodied AI
- arxiv url: http://arxiv.org/abs/2511.19861v2
- Date: Sun, 30 Nov 2025 11:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 13:32:07.425083
- Title: GigaWorld-0: World Models as Data Engine to Empower Embodied AI
- Title(参考訳): GigaWorld-0:Embodied AIを活用可能なデータエンジンとしての世界モデル
- Authors: GigaWorld Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jiagang Zhu, Kerui Li, Mengyuan Xu, Qiuping Deng, Siting Wang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yankai Wang, Yu Cao, Yifan Chang, Yuan Xu, Yun Ye, Yang Wang, Yukun Zhou, Zhengyuan Zhang, Zhehao Dong, Zheng Zhu,
- Abstract要約: 我々は、ビジョン・ランゲージ・アクション学習のためのデータエンジンとして明示的に設計された統一世界モデルフレームワークであるGigaWorld-0を提案する。
GigaWorld-0はGigaWorld-0-Videoという2つの相乗的コンポーネントを統合している。
GigaWorld-0-3Dは、3D生成モデリング、3Dガウススプラッティング再構成、物理的に微分可能なシステム識別、幾何学的一貫性と物理リアリズムを確保するための実行可能な動作計画を組み合わせる。
- 参考スコア(独自算出の注目度): 42.7374586431707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models are emerging as a foundational paradigm for scalable, data-efficient embodied AI. In this work, we present GigaWorld-0, a unified world model framework designed explicitly as a data engine for Vision-Language-Action (VLA) learning. GigaWorld-0 integrates two synergistic components: GigaWorld-0-Video, which leverages large-scale video generation to produce diverse, texture-rich, and temporally coherent embodied sequences under fine-grained control of appearance, camera viewpoint, and action semantics; and GigaWorld-0-3D, which combines 3D generative modeling, 3D Gaussian Splatting reconstruction, physically differentiable system identification, and executable motion planning to ensure geometric consistency and physical realism. Their joint optimization enables the scalable synthesis of embodied interaction data that is visually compelling, spatially coherent, physically plausible, and instruction-aligned. Training at scale is made feasible through our efficient GigaTrain framework, which exploits FP8-precision and sparse attention to drastically reduce memory and compute requirements. We conduct comprehensive evaluations showing that GigaWorld-0 generates high-quality, diverse, and controllable data across multiple dimensions. Critically, VLA model (e.g., GigaBrain-0) trained on GigaWorld-0-generated data achieve strong real-world performance, significantly improving generalization and task success on physical robots without any real-world interaction during training.
- Abstract(参考訳): スケーラブルでデータ効率のよいAIのための基礎パラダイムとして、世界モデルが登場している。
本稿では,VLA(Vision-Language-Action)学習のためのデータエンジンとして明示的に設計された統一世界モデルフレームワークであるGigaWorld-0を紹介する。
GigaWorld-0は2つの相乗的コンポーネントを統合している: GigaWorld-0-Videoは、大規模ビデオ生成を利用して、外観、カメラ視点、アクションセマンティクスのきめ細かい制御の下で多様な、テクスチャリッチで、時間的に整合したエンボディシーケンスを生成する。
彼らの共同最適化により、視覚的に説得力があり、空間的に一貫性があり、物理的に可視であり、命令整合性のある、エンボディ化された相互作用データのスケーラブルな合成が可能になる。
大規模なトレーニングは、FP8精度を活用してメモリと計算要求を大幅に削減する、効率的なGigaTrainフレームワークによって実現可能である。
我々は、GigaWorld-0が複数の次元にわたって高品質で多様な、制御可能なデータを生成することを示す包括的な評価を行う。
VLAモデル(例えば、GigaBrain-0)は、GigaWorld-0生成データに基づいてトレーニングされ、実世界のパフォーマンスが向上し、実世界のインタラクションを伴わない物理ロボットにおける一般化とタスク成功が大幅に向上する。
関連論文リスト
- GigaBrain-0: A World Model-Powered Vision-Language-Action Model [44.08074448490287]
我々は、世界モデル生成データによって強化された新しいVLA基盤モデルであるGigaBrain-0を紹介する。
GigaBrain-0は、タスク間の一般化を改善しながら、実際のロボットデータへの依存を著しく低減する。
また、NVIDIA Jetson AGX Orinのようなデバイス上で効率的に動作するように設計された軽量なGigaBrain-0-Smallも紹介する。
論文 参考訳(メタデータ) (2025-10-22T09:57:13Z) - EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer [35.27100635173712]
視覚言語アクション(VLA)モデルは、堅牢な一般化を達成するために、多種多様なトレーニングデータに依存している。
本稿では,VLAポリシー拡張フレームワークであるEmbodied Manipulation Media Adaptation (EMMA)を提案する。
DreamTransferは、3D構造や幾何学的妥当性を損なうことなく、ロボットビデオのテキスト制御による視覚的編集、前景、背景、照明条件の変換を可能にする。
AdaMixは、動的にトレーニングバッチを再重み付けして、知覚的あるいは運動学的に困難なサンプルに最適化する、ハードサンプル対応のトレーニング戦略である。
論文 参考訳(メタデータ) (2025-09-26T14:34:44Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - GWM: Towards Scalable Gaussian World Models for Robotic Manipulation [53.51622803589185]
本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。
中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。
シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
論文 参考訳(メタデータ) (2025-08-25T02:01:09Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。