論文の概要: ST-VLA: Enabling 4D-Aware Spatiotemporal Understanding for General Robot Manipulation
- arxiv url: http://arxiv.org/abs/2603.13788v1
- Date: Sat, 14 Mar 2026 06:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.789787
- Title: ST-VLA: Enabling 4D-Aware Spatiotemporal Understanding for General Robot Manipulation
- Title(参考訳): ST-VLA:汎用ロボットマニピュレーションのための時空間的4次元認識の実現
- Authors: You Wu, Zixuan Chen, Cunxu Ou, Wenxuan Wang, Wenbo Huang, Lin Cao, Yangtao Chen, Weichao Qiu, Xingyue Quan, Jieqi Shi, Jing Huo, Yang Gao,
- Abstract要約: 本稿では,3D-4Dの統一表現を用いた3D-4D表現を提案する。
STHumanは,14,300kエピソード,注釈付き2D,3D,4Dコンテキストを備えた大規模ヒューマン操作データセットである。
RLBenchと実世界の操作タスクの実験は、手法が最先端のベースラインを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 33.92613503473177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic manipulation in open-world environments requires reasoning across semantics, geometry, and long-horizon action dynamics. Existing hierarchical Vision-Language-Action (VLA) frameworks typically use 2D representations to connect high-level reasoning with low-level control, but lack depth awareness and temporal consistency, limiting robustness in complex 3D scenes. We propose ST-VLA, a hierarchical VLA framework using a unified 3D-4D representation to bridge perception and action. ST-VLA converts 2D guidance into 3D trajectories and generates smooth spatial masks that capture 4D spatio-temporal context, providing a stable interface between semantic reasoning and continuous control. To enable effective learning of such representations, we introduce ST-Human, a large-scale human manipulation dataset with 14 tasks and 300k episodes, annotated with 2D, 3D, and 4D supervision via a semi-automated pipeline. Using ST-Human, we train ST-VLM, a spatio-temporal vision-language model that generates spatially grounded and temporally coherent 3D representations to guide policy execution. The smooth spatial masks focus on task-relevant geometry and stabilize latent representations, enabling online replanning and long-horizon reasoning. Experiments on RLBench and real-world manipulation tasks show that \method significantly outperforms state-of-the-art baselines, improving zero-shot success rates by 44.6% and 30.3%. These results demonstrate that offloading spatio-temporal reasoning to VLMs with unified 3D-4D representations substantially improves robustness and generalization for open-world robotic manipulation. Project website: https://oucx117.github.io/ST-VLA/.
- Abstract(参考訳): オープンワールド環境でのロボット操作は、セマンティクス、幾何学、長期の行動力学を横断する推論を必要とする。
既存の階層的ヴィジュアル・ランゲージ・アクション(VLA)フレームワークは、一般的に2D表現を使用して、高レベルの推論と低レベルの制御を結びつけるが、深度認識と時間的一貫性が欠如しており、複雑な3Dシーンでは堅牢性を制限する。
統合された3D-4D表現を用いた階層型VLAフレームワークST-VLAを提案する。
ST-VLAは2次元誘導を3次元軌道に変換し、4次元時空間を捉えるスムーズな空間マスクを生成し、セマンティック推論と連続制御の間に安定したインターフェースを提供する。
このような表現を効果的に学習するために,我々はST-Humanを紹介した。ST-Humanは,14のタスクと300kのエピソードをアノテートした大規模人間の操作データセットで,半自動パイプラインを介して2D,3D,4Dの監視を行う。
ST-Humanを用いて、空間的に接地された時間的コヒーレントな3次元表現を生成する時空間視覚言語モデルST-VLMを訓練し、ポリシー実行を誘導する。
スムーズな空間マスクはタスク関連幾何に焦点を合わせ、潜在表現を安定させ、オンラインのリプランニングとロングホライゾン推論を可能にする。
RLBenchと実世界の操作タスクの実験では、‘method’は最先端のベースラインを大きく上回り、ゼロショットの成功率を44.6%、30.3%向上させた。
これらの結果から、3D-4D表現を統一したVLMへの時空間推論のオフロードは、オープンワールドロボット操作におけるロバストネスと一般化を著しく向上させることが示された。
プロジェクトサイト:https://oucx117.github.io/ST-VLA/。
関連論文リスト
- GMT: Goal-Conditioned Multimodal Transformer for 6-DOF Object Trajectory Synthesis in 3D Scenes [47.88691731631585]
GMTは、現実的でゴール指向のオブジェクトトラジェクトリを生成するマルチモーダルトランスフォーマーフレームワークである。
人工的および実世界のベンチマークの実験では、GMTは最先端の人間の動きや人間と物体の相互作用のベースラインより優れていることが示されている。
論文 参考訳(メタデータ) (2026-03-18T17:54:35Z) - MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence [50.11889361459544]
人間は視覚に基づく4D空間時間知能で生まれる。
その重要性にもかかわらず、この機能は現在の大規模言語モデル(MLLM)にとって重要なボトルネックであり続けている。
論文 参考訳(メタデータ) (2026-02-28T07:23:36Z) - StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation [6.0744834626758495]
StemVLAは、未来の3D空間知識と歴史的4D表現の両方をアクション予測に明示的に組み込む新しいフレームワークである。
我々は,CALVIN ABC-D ベンチマーク [46] において,StemVLA はタスクの長期化と最先端性能を著しく向上し,XXX の平均シーケンス長を達成できることを示した。
論文 参考訳(メタデータ) (2026-02-27T06:43:37Z) - D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation [66.7166217399105]
エージェントは、エンドツーエンドモデルには解釈可能性や明示的な3D推論が欠けているという、重要なジレンマに直面します。
1) 計画,グラウンド,ナビゲーション,質問応答を単一の3D-VLMパイプラインとCoTパイプラインで統一する動的3Dチェーン(3D CoT) ; 2) フラグメンテッド・スーパービジョン(SLFS)戦略からのシナジスティック学習 マスク付き自己回帰損失を用いて,大規模かつ部分的に注釈付けされたハイブリッドデータから学習する。
論文 参考訳(メタデータ) (2025-12-14T09:53:15Z) - VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation [54.81449795163812]
時間的コヒーレントなロボット操作のための4次元認識型汎用VLAモデルを開発した。
視覚的特徴を抽出し, 4次元埋め込みのための3次元位置への1次元時間埋め込みを行い, クロスアテンション機構による統一視覚表現に融合する。
この枠組みの中で、デザインされた視覚アクションは、空間的に滑らかで時間的に一貫したロボット操作を共同で行う。
論文 参考訳(メタデータ) (2025-11-21T12:26:30Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation [63.48859753472547]
SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。
RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
論文 参考訳(メタデータ) (2025-11-12T18:59:08Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。
実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-27T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。