論文の概要: SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model
- arxiv url: http://arxiv.org/abs/2501.15830v2
- Date: Tue, 28 Jan 2025 09:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 13:53:20.671037
- Title: SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model
- Title(参考訳): SpaceVLA:ビジュアル・ランゲージ・アクション・モデルのための空間表現の探索
- Authors: Delin Qu, Haoming Song, Qizhi Chen, Yuanqi Yao, Xinyi Ye, Yan Ding, Zhigang Wang, JiaYuan Gu, Bin Zhao, Dong Wang, Xuelong Li,
- Abstract要約: 空間理解はロボット操作のキーポイントです
本研究では,ロボット基盤モデルのための効果的な空間表現を探索する空間VLAを提案する。
提案したAdaptive Action Gridsは,事前学習したSpatialVLAモデルを微調整し,新しいシミュレーションと実世界のセットアップを実現するための,新しい効果的な方法を提供する。
- 参考スコア(独自算出の注目度): 45.03115608632622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we claim that spatial understanding is the keypoint in robot manipulation, and propose SpatialVLA to explore effective spatial representations for the robot foundation model. Specifically, we introduce Ego3D Position Encoding to inject 3D information into the input observations of the visual-language-action model, and propose Adaptive Action Grids to represent spatial robot movement actions with adaptive discretized action grids, facilitating learning generalizable and transferrable spatial action knowledge for cross-robot control. SpatialVLA is first pre-trained on top of a vision-language model with 1.1 Million real-world robot episodes, to learn a generalist manipulation policy across multiple robot environments and tasks. After pre-training, SpatialVLA is directly applied to perform numerous tasks in a zero-shot manner. The superior results in both simulation and real-world robots demonstrate its advantage of inferring complex robot motion trajectories and its strong in-domain multi-task generalization ability. We further show the proposed Adaptive Action Grids offer a new and effective way to fine-tune the pre-trained SpatialVLA model for new simulation and real-world setups, where the pre-learned action grids are re-discretized to capture robot-specific spatial action movements of new setups. The superior results from extensive evaluations demonstrate the exceptional in-distribution generalization and out-of-distribution adaptation capability, highlighting the crucial benefit of the proposed spatial-aware representations for generalist robot policy learning. All the details and codes will be open-sourced.
- Abstract(参考訳): 本稿では,ロボット操作における空間理解が重要なポイントであると主張し,ロボット基盤モデルのための効果的な空間表現を探索するSpatialVLAを提案する。
具体的には,視覚・言語・アクションモデルの入力観測に3D情報を注入するためのEgo3D位置符号化を導入し,適応的な離散化されたアクショングリッドで空間ロボットの動きを表現する適応的アクショングリッドを提案し,ロボット間制御のための一般化可能な空間行動知識の伝達を容易にする。
SpaceVLAは、複数のロボット環境やタスクにまたがる汎用的な操作ポリシーを学ぶために、1100万の現実世界のロボットエピソードを持つビジョン言語モデル上で、最初に事前訓練された。
事前訓練後、SpatialVLAはゼロショット方式で多数のタスクを実行するために直接適用される。
シミュレーションと実世界のロボットの双方における優れた結果は、複雑なロボットの運動軌跡と強力なドメイン内マルチタスク一般化能力を推定する利点を示す。
さらに,提案したAdaptive Action Gridsは,事前学習したSpatialVLAモデルを,新たなシミュレーションと実世界のセットアップのために微調整し,事前学習したアクショングリッドを再抽出して,新たなセットアップのロボット固有の空間行動運動をキャプチャする,新しい効果的な方法を提供する。
広汎な評価による優れた結果は、一般論的なロボット政策学習において提案された空間認識表現の重要な利点を浮き彫りにして、非分配的一般化とアウト・オブ・ディストリビューション適応能力を示す。
詳細とコードは、すべてオープンソースになる。
関連論文リスト
- RoboGround: Robotic Manipulation with Grounded Vision-Language Priors [59.31993241876335]
本研究では,効果的な中間表現としての接地マスクについて検討する。
我々は、接地型ロボット操作システムであるRoboGroundを紹介する。
一般化をさらに探求し、拡張するために、大規模なシミュレーションデータを生成する自動パイプラインを提案する。
論文 参考訳(メタデータ) (2025-04-30T11:26:40Z) - Trajectory Adaptation using Large Language Models [0.8704964543257245]
新しい状況に応じた人間の指示に基づくロボット軌道の適応は、より直感的でスケーラブルな人間とロボットの相互作用を実現するために不可欠である。
本研究は,市販の移動プランナが生成する汎用ロボット軌道に適応する柔軟な言語ベースのフレームワークを提案する。
我々は、事前学習されたLLMを用いて、高密度ロボット操作のポリシーとしてコードを生成することにより、軌道方向の経路を適応させる。
論文 参考訳(メタデータ) (2025-04-17T08:48:23Z) - FLEX: A Framework for Learning Robot-Agnostic Force-based Skills Involving Sustained Contact Object Manipulation [9.292150395779332]
本稿では,力空間におけるオブジェクト中心の操作ポリシーを学習するための新しいフレームワークを提案する。
提案手法は, 動作空間を単純化し, 不要な探索を低減し, シミュレーションオーバーヘッドを低減させる。
評価の結果,本手法はベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:49:47Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Active Exploration for Robotic Manipulation [40.39182660794481]
本稿では,スパース・リワード型ロボット操作作業における効率的な学習を可能にするモデルに基づく能動探索手法を提案する。
我々は,提案アルゴリズムをシミュレーションおよび実ロボットで評価し,スクラッチから本手法を訓練した。
論文 参考訳(メタデータ) (2022-10-23T18:07:51Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z) - SAGCI-System: Towards Sample-Efficient, Generalizable, Compositional,
and Incremental Robot Learning [41.19148076789516]
上記の4つの要件を満たすために,SAGCIシステムと呼ばれる体系的な学習フレームワークを導入する。
本システムはまず,ロボットの手首に搭載されたカメラによって収集された生点雲を入力とし,URDFに代表される周囲環境の初期モデリングを生成する。
そのロボットは、対話的な知覚を利用して環境と対話し、URDFのオンライン検証と修正を行う。
論文 参考訳(メタデータ) (2021-11-29T16:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。