論文の概要: GigaBrain-0: A World Model-Powered Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2510.19430v1
- Date: Wed, 22 Oct 2025 09:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.541163
- Title: GigaBrain-0: A World Model-Powered Vision-Language-Action Model
- Title(参考訳): GigaBrain-0:世界モデル駆動ビジョンランゲージ・アクションモデル
- Authors: GigaBrain Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jie Li, Jiagang Zhu, Lv Feng, Peng Li, Qiuping Deng, Runqi Ouyang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yilong Li, Yiran Ding, Yuan Xu, Yun Ye, Yukun Zhou, Zhehao Dong, Zhenan Wang, Zhichao Liu, Zheng Zhu,
- Abstract要約: 我々は、世界モデル生成データによって強化された新しいVLA基盤モデルであるGigaBrain-0を紹介する。
GigaBrain-0は、タスク間の一般化を改善しながら、実際のロボットデータへの依存を著しく低減する。
また、NVIDIA Jetson AGX Orinのようなデバイス上で効率的に動作するように設計された軽量なGigaBrain-0-Smallも紹介する。
- 参考スコア(独自算出の注目度): 44.08074448490287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training Vision-Language-Action (VLA) models for generalist robots typically requires large-scale real-world robot data, which is expensive and time-consuming to collect. The inefficiency of physical data collection severely limits the scalability, and generalization capacity of current VLA systems. To address this challenge, we introduce GigaBrain-0, a novel VLA foundation model empowered by world model-generated data (e.g., video generation, real2real transfer, human transfer, view transfer, sim2real transfer data). By leveraging world models to generate diverse data at scale, GigaBrain-0 significantly reduces reliance on real robot data while improving cross-task generalization. Our approach further improves policy robustness through RGBD input modeling and embodied Chain-of-Thought (CoT) supervision, enabling the model to reason about spatial geometry, object states, and long-horizon dependencies during task execution. This leads to substantial gains in real-world performance on dexterous, long-horizon, and mobile manipulation tasks. Extensive experiments demonstrate that GigaBrain-0 achieves superior generalization across variations in appearances (e.g., textures, colors), object placements, and camera viewpoints. Additionally, we present GigaBrain-0-Small, an optimized lightweight variant designed to run efficiently on devices such as the NVIDIA Jetson AGX Orin.
- Abstract(参考訳): 汎用ロボットのための訓練用ビジョンランゲージ・アクション(VLA)モデルは、一般的に大規模な現実世界のロボットデータを必要とする。
物理データ収集の非効率性は、現在のVLAシステムのスケーラビリティと一般化能力を著しく制限する。
この課題に対処するため、GigaBrain-0は、世界モデル生成データ(例えば、ビデオ生成、リアル2リアル転送、ヒューマン転送、ビュー転送、sim2real転送データ)によって強化された新しいVLA基盤モデルである。
GigaBrain-0は、世界モデルを利用して多様なデータを大規模に生成することにより、実際のロボットデータへの依存を著しく低減し、クロスタスクの一般化を改善した。
提案手法は,RGBD入力モデルとCoT(Chain-of-Thought)監視を具体化することにより,タスク実行中の空間幾何学,オブジェクト状態,長期依存性をモデル化する。
これにより、デクスタラス、ロングホライゾン、モバイル操作タスクにおける現実世界のパフォーマンスが大幅に向上する。
GigaBrain-0は、外観(例えば、テクスチャ、色)、オブジェクト配置、カメラ視点など)のさまざまなバリエーションにおいて、優れた一般化を実現している。
さらに,NVIDIA Jetson AGX Orinなどのデバイス上で効率的に動作するように設計された軽量なGigaBrain-0-Smallを提案する。
関連論文リスト
- RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation [37.52152452548065]
RoboGeneは多様な物理的に可能な操作タスクを生成するために設計されたエージェントフレームワークである。
広範に定量的な分析と大規模な実世界の実験を行い、18k軌道のデータセットを収集した。
結果は、RoboGeneが最先端の基礎モデルよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2026-02-18T13:29:43Z) - HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - GigaWorld-0: World Models as Data Engine to Empower Embodied AI [42.7374586431707]
我々は、ビジョン・ランゲージ・アクション学習のためのデータエンジンとして明示的に設計された統一世界モデルフレームワークであるGigaWorld-0を提案する。
GigaWorld-0はGigaWorld-0-Videoという2つの相乗的コンポーネントを統合している。
GigaWorld-0-3Dは、3D生成モデリング、3Dガウススプラッティング再構成、物理的に微分可能なシステム識別、幾何学的一貫性と物理リアリズムを確保するための実行可能な動作計画を組み合わせる。
論文 参考訳(メタデータ) (2025-11-25T03:00:42Z) - DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving [52.63591791507895]
将来の画像の予測に世界モデリングを利用するトレーニングパラダイムである textbfDriveVLA-W0 を提案する。
このタスクは、運転環境の基礎となる力学を学ぶためにモデルを補完する密集した自己教師信号を生成する。
NAVSIM v1/v2ベンチマークと680倍の社内データセットの実験は、DriveVLA-W0がBEVとVLAのベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-14T17:59:47Z) - EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer [35.27100635173712]
視覚言語アクション(VLA)モデルは、堅牢な一般化を達成するために、多種多様なトレーニングデータに依存している。
本稿では,VLAポリシー拡張フレームワークであるEmbodied Manipulation Media Adaptation (EMMA)を提案する。
DreamTransferは、3D構造や幾何学的妥当性を損なうことなく、ロボットビデオのテキスト制御による視覚的編集、前景、背景、照明条件の変換を可能にする。
AdaMixは、動的にトレーニングバッチを再重み付けして、知覚的あるいは運動学的に困難なサンプルに最適化する、ハードサンプル対応のトレーニング戦略である。
論文 参考訳(メタデータ) (2025-09-26T14:34:44Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。