論文の概要: Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos
- arxiv url: http://arxiv.org/abs/2512.13080v1
- Date: Mon, 15 Dec 2025 08:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.344558
- Title: Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos
- Title(参考訳): 映像からの視覚的アライメントによる空間認識型VLAの事前学習
- Authors: Yicheng Feng, Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Sipeng Zheng, Zongqing Lu,
- Abstract要約: VLA(Vision-Language-Action)モデルでは、視覚認識と言語指導による政策学習を統合している。
現在、既存のほとんどのアプローチは3D物理環境でアクションを実行するために2Dビジュアルインプットに依存している。
本稿では,空間認識型VLA事前学習パラダイムを提案する。
3Dビジュアルエンコーダを組み込んだ2次元エンコーダアーキテクチャであるVIPA-VLAにより、このパラダイムをインスタンス化し、セマンティックビジュアル表現を3D認識機能で拡張する。
- 参考スコア(独自算出の注目度): 39.05067965462225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models provide a promising paradigm for robot learning by integrating visual perception with language-guided policy learning. However, most existing approaches rely on 2D visual inputs to perform actions in 3D physical environments, creating a significant gap between perception and action grounding. To bridge this gap, we propose a Spatial-Aware VLA Pretraining paradigm that performs explicit alignment between visual space and physical space during pretraining, enabling models to acquire 3D spatial understanding before robot policy learning. Starting from pretrained vision-language models, we leverage large-scale human demonstration videos to extract 3D visual and 3D action annotations, forming a new source of supervision that aligns 2D visual observations with 3D spatial reasoning. We instantiate this paradigm with VIPA-VLA, a dual-encoder architecture that incorporates a 3D visual encoder to augment semantic visual representations with 3D-aware features. When adapted to downstream robot tasks, VIPA-VLA achieves significantly improved grounding between 2D vision and 3D action, resulting in more robust and generalizable robotic policies.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは、視覚認識と言語誘導ポリシー学習を統合することで、ロボット学習に有望なパラダイムを提供する。
しかし、既存のほとんどのアプローチは3次元の物理的環境での行動を実行するために2次元の視覚的入力に依存しており、知覚と行動基盤の間に大きなギャップが生じる。
このギャップを埋めるために,ロボットポリシー学習の前に3次元空間理解を得ることが可能な空間認識型VLA事前学習パラダイムを提案する。
事前学習された視覚言語モデルから、3次元の視覚的および3次元のアクションアノテーションを抽出し、2次元の視覚的観察と3次元の空間的推論を整合させる新しい監督源を形成する。
3Dビジュアルエンコーダを組み込んだ2次元エンコーダアーキテクチャであるVIPA-VLAにより、このパラダイムをインスタンス化し、セマンティックビジュアル表現を3D認識機能で拡張する。
下流ロボットのタスクに適応すると、VIPA-VLAは2Dビジョンと3Dアクションの間のグラウンド化を大幅に改善し、より堅牢で一般化可能なロボットポリシーを実現する。
関連論文リスト
- Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。