論文の概要: GigaBrain-0: A World Model-Powered Vision-Language-Action Model
        - arxiv url: http://arxiv.org/abs/2510.19430v1
- Date: Wed, 22 Oct 2025 09:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.541163
- Title: GigaBrain-0: A World Model-Powered Vision-Language-Action Model
- Title(参考訳): GigaBrain-0:世界モデル駆動ビジョンランゲージ・アクションモデル
- Authors:  GigaBrain Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jie Li, Jiagang Zhu, Lv Feng, Peng Li, Qiuping Deng, Runqi Ouyang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yilong Li, Yiran Ding, Yuan Xu, Yun Ye, Yukun Zhou, Zhehao Dong, Zhenan Wang, Zhichao Liu, Zheng Zhu, 
- Abstract要約: 我々は、世界モデル生成データによって強化された新しいVLA基盤モデルであるGigaBrain-0を紹介する。
GigaBrain-0は、タスク間の一般化を改善しながら、実際のロボットデータへの依存を著しく低減する。
また、NVIDIA Jetson AGX Orinのようなデバイス上で効率的に動作するように設計された軽量なGigaBrain-0-Smallも紹介する。
- 参考スコア(独自算出の注目度): 44.08074448490287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract:   Training Vision-Language-Action (VLA) models for generalist robots typically requires large-scale real-world robot data, which is expensive and time-consuming to collect. The inefficiency of physical data collection severely limits the scalability, and generalization capacity of current VLA systems. To address this challenge, we introduce GigaBrain-0, a novel VLA foundation model empowered by world model-generated data (e.g., video generation, real2real transfer, human transfer, view transfer, sim2real transfer data). By leveraging world models to generate diverse data at scale, GigaBrain-0 significantly reduces reliance on real robot data while improving cross-task generalization. Our approach further improves policy robustness through RGBD input modeling and embodied Chain-of-Thought (CoT) supervision, enabling the model to reason about spatial geometry, object states, and long-horizon dependencies during task execution. This leads to substantial gains in real-world performance on dexterous, long-horizon, and mobile manipulation tasks. Extensive experiments demonstrate that GigaBrain-0 achieves superior generalization across variations in appearances (e.g., textures, colors), object placements, and camera viewpoints. Additionally, we present GigaBrain-0-Small, an optimized lightweight variant designed to run efficiently on devices such as the NVIDIA Jetson AGX Orin. 
- Abstract(参考訳): 汎用ロボットのための訓練用ビジョンランゲージ・アクション(VLA)モデルは、一般的に大規模な現実世界のロボットデータを必要とする。
物理データ収集の非効率性は、現在のVLAシステムのスケーラビリティと一般化能力を著しく制限する。
この課題に対処するため、GigaBrain-0は、世界モデル生成データ(例えば、ビデオ生成、リアル2リアル転送、ヒューマン転送、ビュー転送、sim2real転送データ)によって強化された新しいVLA基盤モデルである。
GigaBrain-0は、世界モデルを利用して多様なデータを大規模に生成することにより、実際のロボットデータへの依存を著しく低減し、クロスタスクの一般化を改善した。
提案手法は,RGBD入力モデルとCoT(Chain-of-Thought)監視を具体化することにより,タスク実行中の空間幾何学,オブジェクト状態,長期依存性をモデル化する。
これにより、デクスタラス、ロングホライゾン、モバイル操作タスクにおける現実世界のパフォーマンスが大幅に向上する。
GigaBrain-0は、外観(例えば、テクスチャ、色)、オブジェクト配置、カメラ視点など)のさまざまなバリエーションにおいて、優れた一般化を実現している。
さらに,NVIDIA Jetson AGX Orinなどのデバイス上で効率的に動作するように設計された軽量なGigaBrain-0-Smallを提案する。
 
      
        関連論文リスト
        - DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving [52.63591791507895]
 将来の画像の予測に世界モデリングを利用するトレーニングパラダイムである textbfDriveVLA-W0 を提案する。
このタスクは、運転環境の基礎となる力学を学ぶためにモデルを補完する密集した自己教師信号を生成する。
NAVSIM v1/v2ベンチマークと680倍の社内データセットの実験は、DriveVLA-W0がBEVとVLAのベースラインを大きく上回っていることを示している。
 論文  参考訳(メタデータ) (2025-10-14T17:59:47Z)
- EMMA: Generalizing Real-World Robot Manipulation via Generative Visual   Transfer [35.27100635173712]
 視覚言語アクション(VLA)モデルは、堅牢な一般化を達成するために、多種多様なトレーニングデータに依存している。
本稿では,VLAポリシー拡張フレームワークであるEmbodied Manipulation Media Adaptation (EMMA)を提案する。
DreamTransferは、3D構造や幾何学的妥当性を損なうことなく、ロボットビデオのテキスト制御による視覚的編集、前景、背景、照明条件の変換を可能にする。
AdaMixは、動的にトレーニングバッチを再重み付けして、知覚的あるいは運動学的に困難なサンプルに最適化する、ハードサンプル対応のトレーニング戦略である。
 論文  参考訳(メタデータ) (2025-09-26T14:34:44Z)
- HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
 階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
 論文  参考訳(メタデータ) (2025-02-08T07:50:22Z)
- RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
 我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
 論文  参考訳(メタデータ) (2022-12-13T18:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
       
     
      指定された論文の情報です。
      本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。