論文の概要: SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding
- arxiv url: http://arxiv.org/abs/2511.17411v1
- Date: Fri, 21 Nov 2025 17:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.135937
- Title: SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding
- Title(参考訳): SPEAR-1:3D理解によるロボットデモを超えてのスケーリング
- Authors: Nikolay Nikolov, Giuliano Albanese, Sombit Dey, Aleksandar Yanev, Luc Van Gool, Jan-Nico Zaech, Danda Pani Paudel,
- Abstract要約: ロボットファウンデーションモデル(RFMs)は、ロボット制御のための汎用的なエンドツーエンドシステムとして大きな可能性を秘めている。
本稿では,3次元アノテーションを用いた非ロボティックな画像データの統合と,3次元理解機能を備えた事前学習VLMの強化を提案する。
我々は,基礎となる3次元認識と言語による具体化制御を統合したロボット基礎モデルであるtextbfSPEAR-1$を紹介した。
- 参考スコア(独自算出の注目度): 78.12178144115224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic Foundation Models (RFMs) hold great promise as generalist, end-to-end systems for robot control. Yet their ability to generalize across new environments, tasks, and embodiments remains limited. We argue that a major bottleneck lies in their foundations: most RFMs are built by fine-tuning internet-pretrained Vision-Language Models (VLMs). However, these VLMs are trained on 2D image-language tasks and lack the 3D spatial reasoning inherently required for embodied control in the 3D world. Bridging this gap directly with large-scale robotic data is costly and difficult to scale. Instead, we propose to enrich easy-to-collect non-robotic image data with 3D annotations and enhance a pretrained VLM with 3D understanding capabilities. Following this strategy, we train SPEAR-VLM, a 3D-aware VLM that infers object coordinates in 3D space from a single 2D image. Building on SPEAR-VLM, we introduce our main contribution, $~\textbf{SPEAR-1}$: a robotic foundation model that integrates grounded 3D perception with language-instructed embodied control. Trained on $\sim$45M frames from 24 Open X-Embodiment datasets, SPEAR-1 outperforms or matches state-of-the-art models such as $π_0$-FAST and $π_{0.5}$, while it uses 20$\times$ fewer robot demonstrations. This carefully-engineered training strategy unlocks new VLM capabilities and as a consequence boosts the reliability of embodied control beyond what is achievable with only robotic data. We make our model weights and 3D-annotated datasets publicly available.
- Abstract(参考訳): ロボットファウンデーションモデル(RFMs)は、ロボット制御のための汎用的なエンドツーエンドシステムとして大きな可能性を秘めている。
しかし、新しい環境、タスク、実施環境をまたいで一般化する能力は依然として限られている。
ほとんどのRAMは、細調整されたインターネット事前学習型ビジョン・ランゲージ・モデル(VLM)によって構築されます。
しかしながら、これらのVLMは2次元画像言語タスクで訓練されており、3次元世界における具体的制御に必要な空間的推論が欠如している。
このギャップを大規模なロボットデータに直接埋め込むことは、コストがかかり、スケールが難しい。
そこで本研究では,3次元アノテーションを用いた非ロボティクス画像データの統合と,3次元理解機能を備えた事前学習VLMの強化を提案する。
この戦略に従い、単一の2次元画像から3次元空間内の物体座標を推定する3次元認識型VLMであるSPEAR-VLMを訓練する。
SPEAR-VLMをベースとして,基礎となる3次元認識と言語で指示された具体化制御を統合したロボット基礎モデルである $~\textbf{SPEAR-1} を紹介した。
24のOpen X-Embodimentデータセットから$\sim$45MフレームでトレーニングされたSPEAR-1は、$π_0$-FASTや$π_{0.5}$のような最先端のモデルに、20$\times$より少ないロボットデモを使用する。
この慎重にエンジニアリングされたトレーニング戦略は、新しいVLM機能を解き放ち、その結果、ロボットデータだけで達成可能なもの以上の、具体的制御の信頼性を高める。
モデルウェイトと3Dアノテーション付きデータセットを公開しています。
関連論文リスト
- 4D Visual Pre-training for Robot Learning [71.22906081161324]
ロボット工学のためのWebスケールデータセットから得られた一般的な視覚表現は、近年大きな成功を収めている。
しかし、これらの事前訓練された表現は、主に2D画像に基づいており、世界の固有の3Dの性質を無視している。
代替として、すべての3D表現を改善することのできる、一般的なビジュアル事前学習フレームワークを模索しています。
我々のフレームワークはFVPと呼ばれ、現実世界のロボット学習のための新しい4Dビジュアル事前学習フレームワークである。
論文 参考訳(メタデータ) (2025-08-24T07:06:56Z) - EmbodiedMAE: A Unified 3D Multi-Modal Representation for Robot Manipulation [44.08442553098017]
EmbodiedMAEはロボット操作のための統一された3D表現である。
EmbodiedMAEは、最先端のビジョン基盤モデルより一貫して優れている。
論文 参考訳(メタデータ) (2025-05-15T09:12:17Z) - Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D [68.23391872643268]
LOCATE 3Dは「ソファーとランプの間の小さなコーヒーテーブル」のような表現から3Dシーンの物体をローカライズするモデルである
センサー・オブザーバ・ストリーム(RGB-Dフレームの配置)を直接操作し、ロボットやARデバイスへの現実世界の展開を可能にする。
論文 参考訳(メタデータ) (2025-04-19T02:51:24Z) - FP3: A 3D Foundation Policy for Robotic Manipulation [12.115347477632783]
ロボット操作のための最初の大規模3D基礎政策モデルであるFP3を紹介する。
わずか80のデモで、FP3は、見えないオブジェクトを持つ新しい環境で90%以上の成功率で新しいタスクを学ぶことができる。
論文 参考訳(メタデータ) (2025-03-11T23:01:08Z) - From Thousands to Billions: 3D Visual Language Grounding via Render-Supervised Distillation from 2D VLMs [64.28181017898369]
LIFT-GSはポイントクラウドから3Dガウス表現を予測し、予測された言語条件の3Dマスクを2Dビューにレンダリングする。
LIFT-GSは、オープン語彙のインスタンスセグメンテーションで25.7%のmAPで最先端の結果を達成する。
注目すべきは、事前トレーニングがデータセットの微調整を2倍にし、強力なスケーリング特性を示すことだ。
論文 参考訳(メタデータ) (2025-02-27T18:59:11Z) - Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。
実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-27T18:59:52Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。