論文の概要: Galaxea Open-World Dataset and G0 Dual-System VLA Model
- arxiv url: http://arxiv.org/abs/2509.00576v1
- Date: Sat, 30 Aug 2025 18:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.291116
- Title: Galaxea Open-World Dataset and G0 Dual-System VLA Model
- Title(参考訳): GalaxeaオープンワールドデータセットとG0デュアルシステムVLAモデル
- Authors: Tao Jiang, Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Jianning Cui, Xiao Liu, Shuiqi Cheng, Jiyang Gao, Huazhe Xu, Hang Zhao,
- Abstract要約: 実生活と作業環境に記録された大規模で多様なロボット行動のコレクションを提示する。
すべてのデモは、一貫したロボットエンボディメントを使用して収集され、正確なサブタスクレベルの言語アノテーションと組み合わせられる。
G0は、クロス・エボディメント・プレトレーニング、シングル・エボディメント・プレトレーニング、タスク固有のポスト・トレーニングという3段階のカリキュラムを使って訓練されている。
- 参考スコア(独自算出の注目度): 55.756245350141675
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Galaxea Open-World Dataset, a large-scale, diverse collection of robot behaviors recorded in authentic human living and working environments. All demonstrations are gathered using a consistent robotic embodiment, paired with precise subtask-level language annotations to facilitate both training and evaluation. Building on this dataset, we introduce G0, a dual-system framework that couples a Vision-Language Model (VLM) for multimodal planning with a Vision-Language-Action (VLA) model for fine-grained execution. G0 is trained using a three-stage curriculum: cross-embodiment pre-training, single-embodiment pre-training, and task-specific post-training. A comprehensive benchmark spanning tabletop manipulation, few-shot learning, and long-horizon mobile manipulation, demonstrates the effectiveness of our approach. In particular, we find that the single-embodiment pre-training stage, together with the Galaxea Open-World Dataset, plays a critical role in achieving strong performance.
- Abstract(参考訳): 本稿では,人間の実生活と作業環境に記録された大規模かつ多様なロボット行動の集合であるGalaxea Open-World Datasetを紹介する。
すべてのデモンストレーションは、一貫したロボットエンボディメントを使用して収集され、トレーニングと評価の両方を容易にするために、正確なサブタスクレベルの言語アノテーションと組み合わせられる。
このデータセット上に構築されたG0は、マルチモーダル計画のためのビジョン・ランゲージ・モデル(VLM)と、細粒度実行のためのビジョン・ランゲージ・アクション(VLA)モデルとを結合したデュアルシステムフレームワークである。
G0は、クロス・エボディメント・プレトレーニング、シングル・エボディメント・プレトレーニング、タスク固有のポスト・トレーニングという3段階のカリキュラムを使って訓練されている。
テーブルトップ操作,少数ショット学習,長距離移動操作にまたがる総合的なベンチマークは,我々のアプローチの有効性を実証する。
特に,Galaxea Open-World Datasetとともに,シングル・エボディメント・プレトレーニングのステージが,強力なパフォーマンスを達成する上で重要な役割を担っていることがわかった。
関連論文リスト
- Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.62109400603394]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。
提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。
本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文 参考訳(メタデータ) (2025-07-21T13:19:09Z) - DexVLG: Dexterous Vision-Language-Grasp Model at Scale [59.5613919093295]
ヒトのような器用な手のための大型モデルを用いた機能的握りの研究はほとんどない。
DexVLGは、言語命令に整合したDexterousグリップポーズ予測のための大型ビジョン言語-Graspモデルである。
シミュレーションでは、174,000個のオブジェクトのセマンティックな部分にマッピングされた1億1千万個のデキスタスなグリップポーズを、詳細な部分レベルのキャプションと組み合わせて生成する。
論文 参考訳(メタデータ) (2025-07-03T16:05:25Z) - Gondola: Grounded Vision Language Planning for Generalizable Robotic Manipulation [62.711546725154314]
一般化可能なロボット操作のための大規模言語モデル(LLM)に基づく基盤的視覚言語計画モデルであるゴンドラについて紹介する。
G Gondola氏はマルチビューイメージとヒストリプランを使って、インターリーブされたテキストとターゲットオブジェクトとロケーションのセグメンテーションマスクを備えた次のアクションプランを作成する。
G Gondolaは、GemBenchデータセットの4つのレベルすべてにわたって、最先端のLCMベースのメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-06-12T20:04:31Z) - UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [32.83715417294052]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。
我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-05-09T15:11:13Z) - DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。
現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。
本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文 参考訳(メタデータ) (2025-02-09T11:25:56Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。