Fugu-MT 論文翻訳(概要): FUTURE-VLA: Forecasting Unified Trajectories Under Real-time Execution

論文の概要: FUTURE-VLA: Forecasting Unified Trajectories Under Real-time Execution

arxiv url: http://arxiv.org/abs/2602.15882v1
Date: Thu, 05 Feb 2026 14:27:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.688478
Title: FUTURE-VLA: Forecasting Unified Trajectories Under Real-time Execution
Title（参考訳）: Future-VLA: リアルタイム実行下での統一軌道予測
Authors: Jingjing Fan, Yushan Liu, Shoujie Li, Botao Ren, Siyuan Li, Xiao-Ping Zhang, Wenbo Ding, Zhidong Deng,
Abstract要約: FUTURE-VLAは、長期制御と将来の予測をモノリシックなシーケンス生成タスクとして再構成する統一アーキテクチャである。 FUTURE-VLAはLIBEROで99.2%、RoboTwinで75.4%、現実世界のPiperプラットフォームで78.0%の成功率を達成した。
参考スコア（独自算出の注目度）: 27.399648455932397
License: http://creativecommons.org/licenses/by/4.0/
Abstract: General vision-language models increasingly support unified spatiotemporal reasoning over long video streams, yet deploying such capabilities on robots remains constrained by the prohibitive latency of processing long-horizon histories and generating high-dimensional future predictions. To bridge this gap, we present FUTURE-VLA, a unified architecture that reformulates long-horizon control and future forecasting as a monolithic sequence-generation task. Adopting a dual-sided efficiency paradigm, FUTURE-VLA leverages a temporally adaptive compression strategy to maximize spatiotemporal information density, enabling the ingestion of extensive multi-view histories while maintaining constant inference latency. Simultaneously, it performs latent-space autoregression to align actionable dynamics with reviewable visual look-aheads in a single forward pass. These real-time predictive capabilities further enable a prediction-guided Human-In-the-Loop mechanism via interactive execution gating, allowing operators to dynamically validate behaviors based on interpretable future previews. Extensive evaluations demonstrate that FUTURE-VLA establishes new state-of-the-art performance, attaining success rates of 99.2% on LIBERO, 75.4% on RoboTwin, and 78.0% on a real-world Piper platform, all with a $16\times$ extended spatiotemporal window while maintaining the inference latency of a single-frame baseline.
Abstract（参考訳）: 一般的な視覚言語モデルは、長いビデオストリームに対する一貫した時空間推論をますますサポートしているが、ロボットにそのような機能をデプロイすることは、長い水平履歴を処理し、高次元の将来の予測を生成することの禁止的な遅延によって制約されている。このギャップを埋めるために,モノリシックなシーケンス生成タスクとして,長期制御と将来の予測を再構成する統一アーキテクチャFuture-VLAを提案する。両面の効率パラダイムを採用することで、FUTURE-VLAは時間適応型圧縮戦略を利用して時空間情報密度を最大化し、一定の推論レイテンシを維持しながら、広範囲な多視点履歴の取り込みを可能にする。同時に、動作可能なダイナミックスとレビュー可能な視覚的なルックアヘッドを1つのフォワードパスで整列するために、潜在空間の自動回帰を実行する。これらのリアルタイム予測機能は、インタラクティブな実行ゲーティングを通じて予測誘導されたHuman-In-the-Loopメカニズムを可能にすることで、解釈可能な将来のプレビューに基づいて動作を動的に検証することが可能になる。 FUTURE-VLAが新しい最先端のパフォーマンスを確立し、LIBEROで99.2%、RoboTwinで75.4%、現実世界のPiperプラットフォームで78.0%を達成した。

関連論文リスト

From Observations to States: Latent Time Series Forecasting [65.98504021691666]
本稿では,TSFを観測回帰から潜時予測に移行する新しいパラダイムであるLatent Time Series Forecasting(LatentTSF)を提案する。具体的には、LatentTSFはAutoEncoderを使用して、各段階での観測結果を高次元の潜在状態空間に投影する。提案する潜伏目標は,予測潜伏状態と地道状態と観測値との相互情報を暗黙的に最大化する。
論文参考訳（メタデータ） (2026-01-30T20:39:44Z)
FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。 FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。 FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文参考訳（メタデータ） (2025-12-04T16:21:38Z)
SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model [27.54931639768958]
本稿では, これからの3Dシーン占有状況の軌跡条件予測のための新しいアーキテクチャを提案する。 GPTやVGGTのような基本的な視覚や言語モデルにおける注意に基づくトランスフォーマーアーキテクチャにインスパイアされた我々は、中間的な鳥の視線(BEV)投影と、その明示的な幾何学的先行をバイパスする疎密な占有表現を採用した。離散トークン化の有限容量制約とBEV表現の構造的制約の両方を回避し、1-3秒の占有予測のためのnuScenesベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-11-27T02:48:45Z)
dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文参考訳（メタデータ） (2025-09-30T02:36:11Z)
CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。 CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文参考訳（メタデータ） (2025-06-24T17:30:27Z)
Hierarchical Implicit Neural Emulators [20.09615751270837]
本稿では,長期予測精度を高めるマルチスケール暗黙的ニューラルエミュレータを提案する。提案手法では, 圧縮速度の向上に先立って, 次の段階の圧縮速度の向上を推算する。乱流流体力学の実験により,本手法は短期精度が高く,長期安定予測が得られた。
論文参考訳（メタデータ） (2025-06-05T00:28:26Z)
Deep Active Inference Agents for Delayed and Long-Horizon Environments [1.693200946453174]
AIFエージェントは、遅れた環境で悪化する制限である正確な即時予測と徹底的な計画に依存している。本稿では,複数段階の遅延遷移を特徴とする生成型政治アーキテクチャを提案する。我々は,遅延と長期化の設定で現実的な産業シナリオを模倣した環境におけるエージェントの評価を行った。
論文参考訳（メタデータ） (2025-05-26T11:50:22Z)
GACL: Graph Attention Collaborative Learning for Temporal QoS Prediction [5.040979636805073]
時間的予測のための新しいグラフ協調学習(GACL)フレームワークを提案する。動的ユーザサービスグラフ上に構築され、過去のインタラクションを包括的にモデル化する。 WS-DREAMデータセットの実験は、GACLが時間的予測のための最先端の手法を著しく上回っていることを示している。
論文参考訳（メタデータ） (2024-08-20T05:38:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。