論文の概要: VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2511.17199v1
- Date: Fri, 21 Nov 2025 12:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.013292
- Title: VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation
- Title(参考訳): VLA-4D:空間的コヒーレントなロボットマニピュレーションのためのビジョン・ランゲージ・アクションモデルへの4次元認識の埋め込み
- Authors: Hanyu Zhou, Chuanhao Ma, Gim Hee Lee,
- Abstract要約: 時間的コヒーレントなロボット操作のための4次元認識型汎用VLAモデルを開発した。
視覚的特徴を抽出し, 4次元埋め込みのための3次元位置への1次元時間埋め込みを行い, クロスアテンション機構による統一視覚表現に融合する。
この枠組みの中で、デザインされた視覚アクションは、空間的に滑らかで時間的に一貫したロボット操作を共同で行う。
- 参考スコア(独自算出の注目度): 54.81449795163812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models show potential for general robotic tasks, but remain challenging in spatiotemporally coherent manipulation, which requires fine-grained representations. Typically, existing methods embed 3D positions into visual representations to enhance the spatial precision of actions. However, these methods struggle to achieve temporally coherent control over action execution. In this work, we propose VLA-4D, a general VLA model with 4D awareness for spatiotemporally coherent robotic manipulation. Our model is guided by two key designs: 1) 4D-aware visual representation. We extract visual features, embed 1D time into 3D positions for 4D embeddings, and fuse them into a unified visual representation via a cross-attention mechanism. 2) Spatiotemporal action representation. We extend conventional spatial action representations with temporal information to enable the spatiotemporal planning, and align the multimodal representations into the LLM for spatiotemporal action prediction. Within this unified framework, the designed visual and action representations jointly make robotic manipulation spatially-smooth and temporally-coherent. In addition, we extend the VLA dataset with temporal action annotations for fine-tuning our model. Extensive experiments have been conducted to verify the superiority of our method across different tasks of robotic manipulation.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは一般的なロボット作業の可能性を示しているが、微細な表現を必要とする時空間的コヒーレントな操作には依然として挑戦的である。
通常、既存の方法では、アクションの空間的精度を高めるために3D位置を視覚表現に埋め込む。
しかし,これらの手法は行動実行に対する時間的コヒーレントな制御を実現するのに苦慮している。
本研究では,時空間コヒーレントなロボット操作のための4次元認識型汎用VLAモデルであるVLA-4Dを提案する。
私たちのモデルは2つの重要な設計でガイドされています。
1)4次元視覚表現。
視覚的特徴を抽出し, 4次元埋め込みのための3次元位置への1次元時間埋め込みを行い, クロスアテンション機構による統一視覚表現に融合する。
2)時空間行動表現
従来の空間的行動表現を時空間情報で拡張し、時空間計画を可能にし、時空間的行動予測のために多モーダル表現をLLMに整列させる。
この統合された枠組みの中で、デザインされた視覚的および行動的表現は、空間的に滑らかで時間的に一貫性のあるロボット操作を共同で作成する。
さらに、VLAデータセットを時間的アクションアノテーションで拡張し、モデルを微調整する。
ロボット操作のさまざまなタスクにまたがって,本手法の優位性を検証するため,大規模な実験が実施されている。
関連論文リスト
- GAF: Gaussian Action Field as a 4D Representation for Dynamic World Modeling in Robotic Manipulation [47.471097712217386]
既存のアプローチは、視覚入力から直接アクションを予測するV-A(Vision-to-A)パラダイムや、中間的な3D表現を活用するV-3D-to-A(Vision-to-A)パラダイムに従うのが一般的である。
本稿では,ガウスアクション場(GAF)を介して動作認識4D表現から直接行動推論を可能にするV-4D-Aフレームワークを採用する。
実験では、+11.5385 dB PSNR、+0.3864 SSIM、-0.5574 LPIPSの改善を達成し、平均+7.3%の成功を上げた。
論文 参考訳(メタデータ) (2025-06-17T02:55:20Z) - LLaVA-4D: Embedding SpatioTemporal Prompt into LMMs for 4D Scene Understanding [55.81291976637705]
視覚的4Dシーン理解のための時間的プロンプトを備えた汎用LMMフレームワークを提案する。
このプロンプトは、3D位置と1D時間を動的に認識された4D座標埋め込みに符号化することで生成される。
4次元シーン理解において,異なるタスクにまたがる手法の有効性を実証するために実験を行った。
論文 参考訳(メタデータ) (2025-05-18T06:18:57Z) - OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Learning 3D Dynamic Scene Representations for Robot Manipulation [21.6131570689398]
ロボット操作のための3Dシーン表現は、永続性、完全性、連続性という3つの重要なオブジェクト特性を捉えなければならない。
本研究では3次元動的表現(DSR)を導入し,オブジェクトを同時に検出,追跡,再構成し,そのダイナミクスを予測する。
本稿では,DSRを段階的に構築・洗練するために,複数の相互作用を通して視覚的観察を集約することを学ぶDSR-Netを提案する。
論文 参考訳(メタデータ) (2020-11-03T19:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。