論文の概要: AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2602.10698v1
- Date: Wed, 11 Feb 2026 09:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.66976
- Title: AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models
- Title(参考訳): AugVLA-3D:ビジョン・ランゲージ・アクションモデルのための深度駆動型特徴拡張
- Authors: Zhifeng Rao, Wenlong Chen, Lei Xie, Xia Hua, Dongfu Yin, Zhen Tian, F. Richard Yu,
- Abstract要約: VLA(Vision-Language-Action)モデルは最近、ロボットの知覚と制御において顕著な進歩を遂げている。
深度推定をVLAモデルに統合し,3次元特徴表現を充実させる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.57469056850227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have recently achieved remarkable progress in robotic perception and control, yet most existing approaches primarily rely on VLM trained using 2D images, which limits their spatial understanding and action grounding in complex 3D environments. To address this limitation, we propose a novel framework that integrates depth estimation into VLA models to enrich 3D feature representations. Specifically, we employ a depth estimation baseline called VGGT to extract geometry-aware 3D cues from standard RGB inputs, enabling efficient utilization of existing large-scale 2D datasets while implicitly recovering 3D structural information. To further enhance the reliability of these depth-derived features, we introduce a new module called action assistant, which constrains the learned 3D representations with action priors and ensures their consistency with downstream control tasks. By fusing the enhanced 3D features with conventional 2D visual tokens, our approach significantly improves the generalization ability and robustness of VLA models. Experimental results demonstrate that the proposed method not only strengthens perception in geometrically ambiguous scenarios but also leads to superior action prediction accuracy. This work highlights the potential of depth-driven data augmentation and auxiliary expert supervision for bridging the gap between 2D observations and 3D-aware decision-making in robotic systems.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは最近、ロボットの知覚と制御において顕著な進歩を遂げているが、既存のアプローチは主に2D画像を用いて訓練されたVLMに依存しており、複雑な3D環境における空間的理解と行動基盤を制限する。
この制限に対処するために,VLAモデルに深度推定を統合し,3次元特徴表現を充実させる新しいフレームワークを提案する。
具体的には、VGGTと呼ばれる深度推定ベースラインを用いて、標準RGB入力から幾何対応の3Dキューを抽出し、既存の大規模2Dデータセットを暗黙的に3D構造情報を復元しながら効率よく活用する。
これらの深度に基づく特徴の信頼性をさらに高めるために、我々は、学習した3D表現をアクションプリエントで制約し、下流制御タスクとの整合性を確保する、アクションアシスタントと呼ばれる新しいモジュールを導入する。
従来の2次元視覚トークンで拡張された3次元特徴を融合することにより,VLAモデルの一般化能力とロバスト性を大幅に向上させる。
実験により,提案手法は幾何学的不明瞭なシナリオの知覚を強化するだけでなく,行動予測精度も向上することが示された。
この研究は、ロボットシステムにおける2次元観察と3次元認識による意思決定のギャップを埋めるための、深度駆動型データ拡張と補助専門家監督の可能性を強調している。
関連論文リスト
- Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation [38.38852904444365]
本稿では,2次元空間における3次元環境のセマンティクスと幾何学の両方をエンコードするシーン表現を提案する。
私たちのシンプルで効果的なデザインは、ほとんどの最先端の3Dオブジェクト検出器に簡単に統合できます。
論文 参考訳(メタデータ) (2023-04-04T04:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。