Fugu-MT 論文翻訳(概要): StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

論文の概要: StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

arxiv url: http://arxiv.org/abs/2602.23721v1
Date: Fri, 27 Feb 2026 06:43:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.284913
Title: StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation
Title（参考訳）: StemVLA:3次元空間幾何学知識と4次元歴史的表現を用いたオープンソースの視覚・言語・行動モデル
Authors: Jiasong Xiao, Yutao She, Kai Li, Yuyang Sha, Ziang Cheng, Ziang Tong,
Abstract要約: StemVLAは、未来の3D空間知識と歴史的4D表現の両方をアクション予測に明示的に組み込む新しいフレームワークである。我々は,CALVIN ABC-D ベンチマーク [46] において,StemVLA はタスクの長期化と最先端性能を著しく向上し,XXX の平均シーケンス長を達成できることを示した。
参考スコア（独自算出の注目度）: 6.0744834626758495
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language-action (VLA) models integrate visual observations and language instructions to predict robot actions, demonstrating promising generalization in manipulation tasks. However, most existing approaches primarily rely on direct mappings from 2D visual inputs to action sequences, without explicitly modeling the underlying 3D spatial structure or temporal world dynamics. Such representations may limit spatial reasoning and long-horizon decision-making in dynamic environments. To address this limitation, we propose StemVLA, a novel framework that explicitly incorporates both future-oriented 3D spatial knowledge and historical 4D spatiotemporal representations into action prediction. First, instead of relying solely on observed images, StemVLA forecasts structured 3D future spatial-geometric world knowledge, enabling the model to anticipate upcoming scene geometry and object configurations. Second, to capture temporal consistency and motion dynamics, we feed historical image frames into a pretrained video-geometry transformer backbone to extract implicit 3D world representations, and further aggregate them across time using a temporal attention module, termed VideoFormer [20], forming a unified 4D historical spatiotemporal representation. By jointly modeling 2D observations, predicted 3D future structure, and aggregated 4D temporal dynamics, StemVLA enables more comprehensive world understanding for robot manipulation. Extensive experiments in simulation demonstrate that StemVLA significantly improves long-horizon task success and achieves state-of-the-art performance on the CALVIN ABC-D benchmark [46], achieving an average sequence length of XXX.
Abstract（参考訳）: 視覚言語アクション(VLA)モデルは、視覚的な観察と言語指示を統合し、ロボットの動作を予測する。しかし、既存のほとんどのアプローチは、基礎となる3次元空間構造や時間的世界ダイナミクスを明示的にモデル化することなく、2次元視覚入力からアクションシーケンスへの直接マッピングに依存している。このような表現は、動的環境における空間的推論と長期水平決定を制限する可能性がある。この制限に対処するため,将来的な3次元空間知識と歴史的4次元時空間表現の両方をアクション予測に組み込む新しいフレームワークであるStemVLAを提案する。第一に、StemVLAは観察された画像のみに頼るのではなく、3Dの将来の空間幾何学的世界知識を予測し、将来のシーン幾何学やオブジェクト構成を予測できる。第2に、時間的一貫性と動きのダイナミクスを捉えるために、暗黙の3次元世界表現を抽出するために、予め訓練されたビデオ幾何学変換器のバックボーンに歴史的画像フレームを供給し、時間にわたってビデオホルダー[20]と呼ばれる時間的注意モジュールを用いてそれらを集約し、統合された4次元歴史的時空間表現を形成する。 StemVLAは2次元の観察、予測された3次元未来構造、集約された4次元時間力学を共同でモデル化することにより、ロボット操作のためのより包括的な世界理解を可能にする。 CALVIN ABC-D ベンチマーク [46] において,StemVLA は長期タスクの成功を著しく改善し,最先端の性能を実現し,XXX の平均シーケンス長を達成できることを示した。

関連論文リスト

RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文参考訳（メタデータ） (2026-02-24T08:41:40Z)
MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation [27.70398018267795]
本研究は,幾何学的に一貫した任意のRGBD生成が可能な,新しい4次元世界モデルを提案する。 3つのデータセットの実験は、4Dシーン生成と下流操作の両方で強いパフォーマンスを示す。
論文参考訳（メタデータ） (2026-02-10T15:19:17Z)
Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding [54.859943475818234]
基礎モデルからの2次元先行を統一された4次元ガウススプラッティング表現に統合する新しいフレームワークであるMotion4Dを提案する。 1) 局所的な一貫性を維持するために連続的に動き場と意味体を更新する逐次最適化,2) 長期的コヒーレンスのために全ての属性を共同で洗練するグローバル最適化,である。提案手法は,ポイントベーストラッキング,ビデオオブジェクトセグメンテーション,新しいビュー合成など,多様なシーン理解タスクにおいて,2次元基礎モデルと既存の3Dベースアプローチの両方に優れる。
論文参考訳（メタデータ） (2025-12-03T09:32:56Z)
VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation [54.81449795163812]
時間的コヒーレントなロボット操作のための4次元認識型汎用VLAモデルを開発した。視覚的特徴を抽出し, 4次元埋め込みのための3次元位置への1次元時間埋め込みを行い, クロスアテンション機構による統一視覚表現に融合する。この枠組みの中で、デザインされた視覚アクションは、空間的に滑らかで時間的に一貫したロボット操作を共同で行う。
論文参考訳（メタデータ） (2025-11-21T12:26:30Z)
Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文参考訳（メタデータ） (2025-07-01T04:05:47Z)
Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。この生成は、環境の永続的な3Dマップに集約される。
論文参考訳（メタデータ） (2025-05-05T17:59:17Z)
TesserAct: Learning 4D Embodied World Models [66.8519958275311]
我々は、RGB-DN(RGB、Depth、Normal)ビデオのトレーニングにより、4Dワールドモデルを学ぶ。これは従来の2次元モデルを超えるだけでなく、その予測に詳細な形状、構成、時間的変化を組み込むことで、エンボディエージェントの正確な逆動的モデルを効果的に学習することができる。
論文参考訳（メタデータ） (2025-04-29T17:59:30Z)
3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-03-14T17:58:41Z)
A Graph Attention Spatio-temporal Convolutional Network for 3D Human Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文参考訳（メタデータ） (2020-03-11T14:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。