Fugu-MT 論文翻訳(概要): LaST$_{0}$: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model

論文の概要: LaST$_{0}$: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model

arxiv url: http://arxiv.org/abs/2601.05248v2
Date: Mon, 02 Feb 2026 08:46:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.705359
Title: LaST$_{0}$: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model
Title（参考訳）: LaST$_{0}$:ロボットビジョン・ランゲージ・アクションモデルのための潜在時空間連鎖
Authors: Zhuoyang Liu, Jiaming Liu, Hao Chen, Jiale Yu, Ziyu Guo, Chengkai Hou, Chenyang Gu, Xiangju Mi, Renrui Zhang, Kun Wu, Zhengping Che, Jian Tang, Pheng-Ann Heng, Shanghang Zhang,
Abstract要約: 潜在時空間連鎖(CoT)を介して行動する前に効率的に推論できるフレームワークを提案する。具体的には,未来の視覚力学,3次元構造情報,ロボットの受容状態をモデル化したトークン効率の潜在CoT空間を導入し,時間的に一貫した暗黙的推論軌道を可能にするためにこれらの表現をさらに拡張する。
参考スコア（独自算出の注目度）: 102.60980325911106
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models have recently shown strong generalization, with some approaches seeking to explicitly generate linguistic reasoning traces or predict future observations prior to execution. However, explicit reasoning typically incurs non-negligible inference latency, which constrains the temporal resolution required for robotic manipulation. Moreover, such reasoning is confined to the linguistic space, imposing a representational bottleneck that struggles to faithfully capture ineffable physical attributes. To mitigate these limitations, we propose LaST$_0$, a framework that enables efficient reasoning before acting through a Latent Spatio-Temporal Chain-of-Thought (CoT), capturing fine-grained physical and robotic dynamics that are often difficult to verbalize. Specifically, we introduce a token-efficient latent CoT space that models future visual dynamics, 3D structural information, and robot proprioceptive states, and further extends these representations across time to enable temporally consistent implicit reasoning trajectories. Furthermore, LaST$_0$ adopts a dual-system architecture implemented via a Mixture-of-Transformers design, where a reasoning expert conducts low-frequency latent inference and an acting expert generates high-frequency actions conditioned on robotics-oriented latent representations. To facilitate coordination, LaST$_0$ is trained with heterogeneous operation frequencies, enabling adaptive switching during deployment. Across 10 real-world tasks spanning tabletop, mobile, and dexterous hand manipulation, LaST$_0$ improves mean success rates by 13%, 14% and 14% over prior SOTA VLA methods, respectively.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは最近、言語的推論トレースを明示的に生成したり、実行前に将来の観測を予測しようとするいくつかのアプローチによって、強力な一般化が示されている。しかし、明示的な推論は一般に、ロボット操作に必要な時間分解を制約する非無視推論遅延を引き起こす。さらに、そのような推論は言語空間に限られており、不完全な物理的特性を忠実に捉えるのに苦労する表現的ボトルネックを示唆している。これらの制約を緩和するために,遅延時空間連鎖(CoT)を通す前に効率的な推論を可能にするフレームワークであるLaST$_0$を提案し,音節化が困難な物理・ロボットの微粒化を捉える。具体的には,未来の視覚力学,3次元構造情報,ロボットの受容状態をモデル化したトークン効率の潜在CoT空間を導入し,時間的に一貫した暗黙的推論軌道を可能にするためにこれらの表現をさらに拡張する。さらに、LaST$_0$は、Mixture-of-Transformers設計によって実装されたデュアルシステムアーキテクチャを採用する。調整を容易にするため、LaST$_0$は不均一な動作周波数でトレーニングされ、デプロイメント中に適応的な切り替えを可能にする。 LaST$_0$は、テーブルトップ、モバイル、手操作にまたがる10の現実世界のタスクに対して、平均成功率を13%、平均成功率14%、平均成功率14%改善する。

関連論文リスト

KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization [8.04458701181863]
KnowDiffuserは知識誘導型モーションプランニングフレームワークである。言語モデルの意味的理解と拡散モデルの生成力を統合する。これは、オープンループとクローズループの両方の評価において、既存のプランナーを著しく上回っている。
論文参考訳（メタデータ） (2026-03-11T05:45:29Z)
FlowHOI: Flow-based Semantics-Grounded Generation of Hand-Object Interactions for Dexterous Robot Manipulation [23.19464039872024]
FlowHOIは、時間的にコヒーレントなHOIシーケンスを生成するフローマッチングフレームワークである。本研究では,FlowHOIが最も高い動作認識精度と1.7$times$高い物理シミュレーション成功率を達成することを示す。
論文参考訳（メタデータ） (2026-02-13T20:46:08Z)
Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文参考訳（メタデータ） (2026-02-10T10:16:27Z)
From Observations to States: Latent Time Series Forecasting [65.98504021691666]
本稿では,TSFを観測回帰から潜時予測に移行する新しいパラダイムであるLatent Time Series Forecasting(LatentTSF)を提案する。具体的には、LatentTSFはAutoEncoderを使用して、各段階での観測結果を高次元の潜在状態空間に投影する。提案する潜伏目標は,予測潜伏状態と地道状態と観測値との相互情報を暗黙的に最大化する。
論文参考訳（メタデータ） (2026-01-30T20:39:44Z)
Forest Before Trees: Latent Superposition for Efficient Visual Reasoning [61.29300723302152]
レーザーは動的ウィンドウアライメント学習(DWAL)を通して視覚的推論を再構成する新しいパラダイムであるレーザーは遅延推論法で最先端のパフォーマンスを達成し、強いベースラインのモネを平均5.03%上回る。
論文参考訳（メタデータ） (2026-01-11T08:30:49Z)
Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。 RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文参考訳（メタデータ） (2026-01-07T16:16:10Z)
mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文参考訳（メタデータ） (2025-12-17T18:47:31Z)
StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation [56.996371714721995]
高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
論文参考訳（メタデータ） (2025-10-06T17:37:24Z)
TPC: Cross-Temporal Prediction Connection for Vision-Language Model Hallucination Reduction [5.925383490825323]
視覚言語モデル(VLM)は、大きな言語モデル(LLM)の印象的な能力を生かして、目覚ましい進歩を遂げた。それにもかかわらず、幻覚として知られる重要な課題は、モデルが画像から欠落している物体や属性を過度に記述するときに起こる。この制限により、高スループットアプリケーションにおけるモデルの信頼性が低下する。
論文参考訳（メタデータ） (2025-03-06T14:11:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。