論文の概要: RoboStream: Weaving Spatio-Temporal Reasoning with Memory in Vision-Language Models for Robotics
- arxiv url: http://arxiv.org/abs/2603.12939v1
- Date: Fri, 13 Mar 2026 12:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.761997
- Title: RoboStream: Weaving Spatio-Temporal Reasoning with Memory in Vision-Language Models for Robotics
- Title(参考訳): RoboStream:ロボットの視覚言語モデルにおける空間時間推論と記憶の織り方
- Authors: Yuzhi Huang, Jie Wu, Weijue Bu, Ziyi Xiong, Gaoyang Jiang, Ye Li, Kangye Ji, Shuzhao Xie, Yue Huang, Chenglei Wu, Jingyan Jiang, Zhi Wang,
- Abstract要約: VLMベースのプランナーは、各ステップを観察とアクションのマッピングとして扱い、各決定点ごとに生のピクセルからシーンの幾何学を推論する。
SStream-Temporal Fusion Tokens (TF-Tokens) を提案する。
この設計により、プランナーは因果連鎖を追跡でき、追加の訓練や微調整をすることなく、隠蔽下でオブジェクトの永続性を維持することができる。
- 参考スコア(独自算出の注目度): 25.944338247511215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling reliable long-horizon robotic manipulation is a crucial step toward open-world embodied intelligence. However, VLM-based planners treat each step as an isolated observation-to-action mapping, forcing them to reinfer scene geometry from raw pixels at every decision point while remaining unaware of how prior actions have reshaped the environment. Despite strong short-horizon performance, these systems lack the spatio-temporal reasoning required for persistent geometric anchoring and memory of action-triggered state transitions. Without persistent state tracking, perceptual errors accumulate across the execution horizon, temporarily occluded objects are catastrophically forgotten, and these compounding failures lead to precondition violations that cascade through subsequent steps. In contrast, humans maintain a persistent mental model that continuously tracks spatial relations and action consequences across interactions rather than reconstructing them at each instant. Inspired by this human capacity for causal spatio-temporal reasoning with persistent memory, we propose RoboStream, a training-free framework that achieves geometric anchoring through Spatio-Temporal Fusion Tokens (STF-Tokens), which bind visual evidence to 3D geometric attributes for persistent object grounding, and maintains causal continuity via a Causal Spatio-Temporal Graph (CSTG) that records action-triggered state transitions across steps. This design enables the planner to trace causal chains and preserve object permanence under occlusion without additional training or fine-tuning. RoboStream achieves 90.5% on long-horizon RLBench and 44.4% on challenging real-world block-building tasks, where both SoFar and VoxPoser score 11.1%, demonstrating that spatio-temporal reasoning and causal memory are critical missing components for reliable long-horizon manipulation.
- Abstract(参考訳): 信頼性の高い長距離ロボット操作を実現することは、オープンワールドの具体化インテリジェンスにとって重要なステップだ。
しかしながら、VLMベースのプランナーは、各ステップを独立した観察から行動へのマッピングとして扱い、以前のアクションがどのように環境を形作り変えたかを知らないまま、各決定点の原画素からシーンの幾何学を再推定する。
短時間の強い性能にもかかわらず、これらのシステムは、永続的な幾何学的アンカーとアクショントリガー状態遷移の記憶に必要な時空間的推論を欠いている。
永続的な状態追跡がなければ、知覚的エラーは実行地平線を越えて蓄積され、一時的に無視されたオブジェクトは破滅的に忘れられ、これらの複合的な障害は、その後のステップでカスケードされる事前条件違反を引き起こす。
対照的に、人間は、それぞれの瞬間にそれらを再構築するのではなく、相互作用間の空間的関係や行動の結果を継続的に追跡する永続的な精神モデルを維持している。
この人間による因果的時空間推論能力に着想を得たRoboStreamは、時空間融合トークン(STF-Tokens)による幾何学的アンカーを実現するトレーニングフリーフレームワークで、視覚的エビデンスを3次元の幾何学的属性に結合し、時空間グラフ(CSTG)を介して因果的連続性を維持し、ステップ間でのアクショントリガー状態遷移を記録する。
この設計により、プランナーは因果連鎖を追跡でき、追加の訓練や微調整をすることなく、隠蔽下でオブジェクトの永続性を維持することができる。
RoboStreamはロングホライゾンのRLBenchで90.5%、現実世界のブロック構築タスクで44.4%を達成し、SoFarとVoxPoserはいずれも11.1%を獲得し、時空間推論と因果記憶が信頼できるロングホライゾン操作のための重要な欠落要素であることを示した。
関連論文リスト
- End-to-End Spatial-Temporal Transformer for Real-time 4D HOI Reconstruction [74.31251139839047]
THOは、ビデオと3Dテンプレートから、人間の動きと調整された物体の動きを前方に予測する、エンドツーエンドの空間-時間変換器である。
実験により、THOは1つの4090 GPU上で31.5 FPSの推論速度で動作し、以前の最適化ベースの手法よりも600倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2026-03-15T15:21:36Z) - OccSTeP: Benchmarking 4D Occupancy Spatio-Temporal Persistence [19.81329748424203]
我々は4D Occupancy Spatio-Temporal Persistence(OccSTeP)という新しい概念を導入する。
この概念は,(1)反応予測:「何が起こるか」,(2)前向き予測:「特定の将来の行動が与えられたら何が起こるか」という2つの課題に対処することを目的としている。
OccSTeP-WMは,高密度なボクセルベースのシーン状態を維持し,時間とともに段階的に時間的コンテキストを融合するトークンフリー世界モデルである。
論文 参考訳(メタデータ) (2025-12-17T17:29:20Z) - ST-DETrack: Identity-Preserving Branch Tracking in Entangled Plant Canopies via Dual Spatiotemporal Evidence [0.7448758790630549]
出芽から開花までの分岐アイデンティティを保護するために設計された2重デコーダネットワークST-DETrackを提案する。
我々のアーキテクチャは、空間的一貫性と、動きのあいまいさを生かした時間デコーダを統合している。
ST-DETrackは93.6%の分岐マッチング精度(BMA)を達成し、それぞれ28.9ポイントと3.3ポイントで空間的ベースラインと時間的ベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2025-12-17T13:42:34Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective [16.541717037293278]
物体レベルの部分観測性の下でのストレステストロボット操作のための非マルコフタスクスイートであるLIBERO-Memを紹介する。
短軸と長軸の物体追跡と時間的に順序付けられたサブゴールを組み合わせ、現在のフレームを超えて推論を必要とする。
Embodied-SlotSSMは時間的拡張性のために構築されたスロット中心のVLAフレームワークである。
論文 参考訳(メタデータ) (2025-11-14T16:56:01Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - Spatio-Temporal Bi-directional Cross-frame Memory for Distractor Filtering Point Cloud Single Object Tracking [2.487142846438629]
LIDARポイント内の1つのオブジェクトトラッキングは、コンピュータビジョンにおける重要なタスクである。
既存の手法は、ネットワーク経由の外観マッチングのみに依存するか、連続したフレームからの情報を利用するが、重大な課題に遭遇する。
我々は、これらの課題を緩和するために、STMD-Trackerという、革新的なクロスフレームバイテンポラルモーショントラッカーを設計する。
論文 参考訳(メタデータ) (2024-03-23T13:15:44Z) - Nothing Stands Still: A Spatiotemporal Benchmark on 3D Point Cloud Registration Under Large Geometric and Temporal Change [82.31647863785923]
人工空間の3次元幾何学地図の構築は、基本的なコンピュータビジョンとロボット工学である。
Not Stands Still (NSS)ベンチマークは、大きな空間的および時間的変化を行う3Dシーンの時間的登録に焦点を当てている。
NSSの一環として,建設中または改修中の大規模建築屋内環境において,3次元点雲のデータセットを連続的に取得する。
論文 参考訳(メタデータ) (2023-11-15T20:09:29Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。