論文の概要: Intercepting the Future: Latent-Space Predictive World Model for Dynamic VLA Manipulation
- arxiv url: http://arxiv.org/abs/2606.02486v1
- Date: Mon, 01 Jun 2026 16:55:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.517364
- Title: Intercepting the Future: Latent-Space Predictive World Model for Dynamic VLA Manipulation
- Title(参考訳): ダイナミックVLAマニピュレーションのための潜在空間予測世界モデル
- Authors: Shahram Najam Syed, Arthur Jakobsson, Haoran Hao, Jeffrey Ichnowski,
- Abstract要約: AHEAD (Anticipatory Horizon Extrapolation with Adaptive Dynamics) は、動きを意識した潜在世界モデルで凍結したVLAを増強する予測効果のあるラッパーである。
AHEADは凍結した7B OpenVLAに4.9Mパラメータを追加し、20の動的シミュレーションシナリオで79から97%の成功を達成した。
- 参考スコア(独自算出の注目度): 6.790887409995267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models generalize across static manipulation but fail when objects move during task execution. They map the current observation to an action and assume the scene is stationary between observation and execution, so at any non-trivial object speed the resulting latency exceeds the time available to grasp. We close this gap with AHEAD (Anticipatory Horizon Extrapolation with Adaptive Dynamics), a predict-then-act wrapper that augments a frozen VLA with a motion-aware latent world model. A small world model trained on manipulation video forecasts future patch tokens in the VLA's feature space, conditioned on per-token velocity and acceleration from optical flow. A language-and-motion saliency mask concentrates prediction on task-relevant patches, and the model rolls forward for an adaptive horizon, halting when prediction uncertainty crosses a threshold. The frozen action decoder then receives the predicted future tokens in place of the current ones. AHEAD adds 4.9M parameters to a frozen 7B OpenVLA and reaches 79 to 97% success across 20 dynamic simulation scenarios where the strongest baseline reaches 31 to 58%. On a physical UFactory xArm 7, AHEAD succeeds on 29/30 to 30/30 on three conveyor and rolling-ball tasks, 23/30 on paddle interception, and 19/30 on projectile catching where every baseline scores 0/30.
- Abstract(参考訳): Vision-Language-Action (VLA) モデルは静的操作全体にわたって一般化されるが、タスク実行中にオブジェクトが動くと失敗する。
それらは現在の観察をアクションにマッピングし、シーンが観察と実行の間に静止していると仮定する。
我々はこのギャップをAHEAD(Anticipatory Horizon Extrapolation with Adaptive Dynamics)で埋める。
ビデオを操作するために訓練された小さな世界モデルは、VLAの特徴空間における将来のパッチトークンを予測する。
言語と運動のサリエンシマスクはタスク関連パッチの予測に集中し、予測の不確実性がしきい値を超えた場合、モデルが適応的な水平方向に進む。
凍結されたアクションデコーダは、現在のトークンの代わりに予測された将来のトークンを受け取る。
AHEADは凍った7B OpenVLAに4.9Mパラメータを追加し、最強のベースラインが31から58%に達する20の動的シミュレーションシナリオで79から97%の成功を達成した。
物理UFactory xArm 7では、AHEADは3つのコンベアおよびローリングボールタスクで29/30から30/30、パドルインターセプションで23/30、発射台で19/30で成功し、全てのベースラインが0/30となる。
関連論文リスト
- OASIS: Observation-Action Space Alignment via SE(3) Trajectory Prediction for Robotic Manipulation [41.754765514902736]
本稿では,中間表現と作用空間を$SE(3)$ trajectory predictionで整列するビジュモータポリシーを提案する。
OASISは、3D対応の機能エンコーダを結合し、視覚言語とメートル法深度機能を$SE(3)$ trajectory predictorで融合する。
OASISは、VLAとWAMのベースラインを成功率とアウト・オブ・ディストリビューションの一般化で上回っている。
論文 参考訳(メタデータ) (2026-05-25T13:28:33Z) - GaussianDream: A Feed-Forward 3D Gaussian World Model for Robotic Manipulation [54.671815855499034]
視覚言語アクション(VLA)ポリシーは、セマンティック先行をアクション生成に転送することで、言語条件のロボット操作を進化させた。
標準的な行動模倣学習は、しばしば明示的な3次元空間情報、密集した幾何学的監督、将来の環境進化の十分なモデリングを欠いている。
フィードフォワード3Dガウス世界モデルプラグインである textbfGaussianDream を提案する。
論文 参考訳(メタデータ) (2026-05-20T05:51:30Z) - GEM: Gaussian Evolution Model for Occupancy Forecasting and Motion Planning [13.877624821024535]
本研究では,将来的な意味的占有予測と行動計画のための非自己回帰的占有世界モデルを提案する。
GEMは、現在最先端のセマンティック占有率予測と強力なモーションプランニング性能を実現する。
論文 参考訳(メタデータ) (2026-05-17T22:52:53Z) - From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation [88.39072412680633]
将来の映像を実行可能な表現に変換する制御指向インタフェースであるMoLAを提案する。
我々は,シミュレーションベンチマークと実世界のロボット操作タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2026-05-12T14:15:16Z) - When to Trust Imagination: Adaptive Action Execution for World Action Models [42.51856318901667]
世界行動モデル(WAM)は、近ごろ、将来の視覚的観察と将来の行動を共同で予測することによって、ロボット操作のための有望なパラダイムとして登場した。
現在のWAMは、各モデル推論の後、一定の数の予測アクションを実行し、ロボットは、想像された未来が実際の物理的なロールアウトと一致しているかどうかを無視する。
我々は,将来性検証問題として適応型WAM実行を定式化し,WAM予測された未来が信頼性を保ちながらロボットはより長く実行すべきであり,現実が想像力から逸脱した場合にはより早く再計画する。
論文 参考訳(メタデータ) (2026-05-07T13:18:28Z) - STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation [30.24537271257149]
STARRYは、空間的時間的予測と行動生成を整合させる世界モデル強化アクションジェネレーションポリシーである。
RoboTwin 2.0では、クリーンでランダムな設定で平均93.82% / 93.30%の成功を達成した。
これらの結果は,ロボット操作の空間的・時間的要求に対する行動中心型時空間世界モデリングの有効性を示す。
論文 参考訳(メタデータ) (2026-04-29T16:13:39Z) - OFlow: Injecting Object-Aware Temporal Flow Matching for Robust Robotic Manipulation [55.56490813640669]
VLAモデルは典型的には現在のフレームにのみ作用するが、将来の予測とオブジェクト認識推論は別々の潜在空間でしばしば学習される。
本稿では,時間的フォアシークエンスとオブジェクト認識推論を共通化することで,制約に対処するフレームワークOFlowを提案する。
提案手法は, 時間的フローマッチングを用いて将来の潜伏者を予測し, 物理的に関係のある手がかりを強調するオブジェクト認識表現に分解する。
論文 参考訳(メタデータ) (2026-04-20T06:38:01Z) - LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。
そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。
R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文 参考訳(メタデータ) (2026-03-31T02:21:59Z) - ProgressVLA: Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation [57.07494675832939]
ロボット操作のための既存の視覚言語アクション(VLA)モデルは、進歩意識を欠いている。
本研究では,textbf vla という新しいモデルを提案し,タスク進捗の推定と統合について検討する。
CALVINとLIBEROベンチマークの実験は、実世界のロボットの展開とともに、成功率の大幅な改善を一貫して示している。
論文 参考訳(メタデータ) (2026-03-29T12:38:11Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。