論文の概要: ST-$π$: Structured SpatioTemporal VLA for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2604.17880v1
- Date: Mon, 20 Apr 2026 06:48:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.735756
- Title: ST-$π$: Structured SpatioTemporal VLA for Robotic Manipulation
- Title(参考訳): ST-$π$:ロボットマニピュレーションのための構造付き時空間VLA
- Authors: Chuanhao Ma, Hanyu Zhou, Shihan Peng, Yan Li, Tao Gu, Luxin Yan,
- Abstract要約: ロボット操作のための構造化時間Vモデルを提案する。
本モデルは, 1) 時間的 VLM と 2) 時間的行動専門家の2つの重要な設計によって導かれる。
さらに,微調整のためのアノテーションを付加した実世界のロボットデータセットを提案する。
- 参考スコア(独自算出の注目度): 24.44733656837927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models have achieved great success on general robotic tasks, but still face challenges in fine-grained spatiotemporal manipulation. Typically, existing methods mainly embed spatiotemporal knowledge into visual and action representations, and directly perform a cross-modal mapping for step-level action prediction. However, such spatiotemporal reasoning remains largely implicit, making it difficult to handle multiple sequential behaviors with explicit spatiotemporal boundaries. In this work, we propose ST-$π$, a structured spatiotemporal VLA model for robotic manipulation. Our model is guided by two key designs: 1) Spatiotemporal VLM. We encode 4D observations and task instructions into latent spaces, and feed them into the LLM to generate a sequence of causally ordered chunk-level action prompts consisting of sub-tasks, spatial grounding and temporal grounding. 2) Spatiotemporal action expert. Conditioned on chunk-level action prompts, we design a structured dual-generator guidance to jointly model spatial dependencies and temporal causality, thus predicting step-level action parameters. Within this structured framework, the VLM explicitly plans global spatiotemporal behavior, and the action expert further refines local spatiotemporal control. In addition, we propose a real-world robotic dataset with structured spatiotemporal annotations for fine-tuning. Extensive experiments have been conducted to demonstrate the effectiveness of our model. Our code link: https://github.com/chuanhaoma/ST-pi.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは一般的なロボット作業において大きな成功を収めてきたが、それでも微細な時空間操作の課題に直面している。
通常、既存の手法は主に時空間的知識を視覚的および行動表現に組み込み、ステップレベルの行動予測のためのクロスモーダルマッピングを直接実行する。
しかし、このような時空間的推論は大半が暗黙的であり、時空間的境界が明示的な時空間的境界を持つ複数のシーケンシャルな振る舞いを扱うことは困難である。
本研究では,ロボット操作のための時空間VLAモデルST-$π$を提案する。
私たちのモデルは2つの重要な設計でガイドされています。
1)時空間VLM。
我々は、4D観測とタスク命令を潜在空間にエンコードし、それらをLLMに入力し、サブタスク、空間的接地、時間的接地からなる因果的に順序付けられたチャンクレベルのアクションプロンプトを生成する。
2)時空間行動の専門家。
チャンクレベルのアクションプロンプトを条件に、空間的依存と時間的因果関係を協調的にモデル化し、ステップレベルのアクションパラメータを予測するための構造的デュアルジェネレータガイダンスを設計する。
この構造された枠組みの中で、VLMはグローバルな時空間挙動を明示的に計画し、アクションエキスパートは局所時空間制御をさらに洗練する。
さらに,微調整のための時空間アノテーションを構造化した実世界のロボットデータセットを提案する。
本モデルの有効性を実証するために大規模な実験を行った。
私たちのコードリンクはhttps://github.com/chuanhaoma/ST-piです。
関連論文リスト
- OFlow: Injecting Object-Aware Temporal Flow Matching for Robust Robotic Manipulation [55.56490813640669]
VLAモデルは典型的には現在のフレームにのみ作用するが、将来の予測とオブジェクト認識推論は別々の潜在空間でしばしば学習される。
本稿では,時間的フォアシークエンスとオブジェクト認識推論を共通化することで,制約に対処するフレームワークOFlowを提案する。
提案手法は, 時間的フローマッチングを用いて将来の潜伏者を予測し, 物理的に関係のある手がかりを強調するオブジェクト認識表現に分解する。
論文 参考訳(メタデータ) (2026-04-20T06:38:01Z) - VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation [54.81449795163812]
時間的コヒーレントなロボット操作のための4次元認識型汎用VLAモデルを開発した。
視覚的特徴を抽出し, 4次元埋め込みのための3次元位置への1次元時間埋め込みを行い, クロスアテンション機構による統一視覚表現に融合する。
この枠組みの中で、デザインされた視覚アクションは、空間的に滑らかで時間的に一貫したロボット操作を共同で行う。
論文 参考訳(メタデータ) (2025-11-21T12:26:30Z) - Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert [60.88976842557026]
VLM(Vision-Language Models)は、優れた計画と推論能力を示している。
最近の二重系アプローチは「思考」と「行動」を分離しようとする
一般化可能なアクションエキスパートを中心としたフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-10-04T18:33:27Z) - PatchTraj: Unified Time-Frequency Representation Learning via Dynamic Patches for Trajectory Prediction [14.48846131633279]
軌道予測のための時間周波数ジョイントモデリングを統合した動的パッチベースのフレームワークを提案する。
具体的には、軌道を生の時間列と周波数成分に分解し、動的パッチ分割を用いてマルチスケールセグメンテーションを行う。
その結果、拡張された埋め込みは強力な表現力を示し、バニラアーキテクチャを使用した場合でも正確な予測を可能にする。
論文 参考訳(メタデータ) (2025-07-25T09:55:33Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文 参考訳(メタデータ) (2024-06-14T14:49:12Z) - Learning Self-Similarity in Space and Time as Generalized Motion for
Action Recognition [42.175450800733785]
ビデオ自己相似性(STSS)に基づくリッチな動き表現を提案する。
stssのボリューム全体を活用し、モデルに効果的なモーション表現を抽出させるようにしています。
SELFYと呼ばれる提案された神経ブロックは、追加の監督なしに簡単に神経アーキテクチャに挿入し、エンドツーエンドで訓練することができます。
論文 参考訳(メタデータ) (2021-02-14T07:32:55Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。