論文の概要: STEP: Warm-Started Visuomotor Policies with Spatiotemporal Consistency Prediction
- arxiv url: http://arxiv.org/abs/2602.08245v1
- Date: Mon, 09 Feb 2026 03:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.057477
- Title: STEP: Warm-Started Visuomotor Policies with Spatiotemporal Consistency Prediction
- Title(参考訳): STEP : 時空間整合性予測を伴う温存型バイスモータ政策
- Authors: Jinhao Li, Yuxuan Cong, Yingqiao Wang, Hao Xia, Shan Huang, Yijia Zhang, Ningyi Xu, Guohao Dai,
- Abstract要約: 反復デノゲーションは、リアルタイム閉ループシステムにおける制御周波数を制限し、相当な推論遅延をもたらす。
高品質なウォームスタート動作を構築するための軽量時整合予測機構STEPを提案する。
2段階のSTEPは、RoboMimicベンチマークや実世界のタスクでBRIDGERやDDIMよりも平均21.6%、27.5%高い成功率を達成することができる。
- 参考スコア(独自算出の注目度): 16.465783114087223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion policies have recently emerged as a powerful paradigm for visuomotor control in robotic manipulation due to their ability to model the distribution of action sequences and capture multimodality. However, iterative denoising leads to substantial inference latency, limiting control frequency in real-time closed-loop systems. Existing acceleration methods either reduce sampling steps, bypass diffusion through direct prediction, or reuse past actions, but often struggle to jointly preserve action quality and achieve consistently low latency. In this work, we propose STEP, a lightweight spatiotemporal consistency prediction mechanism to construct high-quality warm-start actions that are both distributionally close to the target action and temporally consistent, without compromising the generative capability of the original diffusion policy. Then, we propose a velocity-aware perturbation injection mechanism that adaptively modulates actuation excitation based on temporal action variation to prevent execution stall especially for real-world tasks. We further provide a theoretical analysis showing that the proposed prediction induces a locally contractive mapping, ensuring convergence of action errors during diffusion refinement. We conduct extensive evaluations on nine simulated benchmarks and two real-world tasks. Notably, STEP with 2 steps can achieve an average 21.6% and 27.5% higher success rate than BRIDGER and DDIM on the RoboMimic benchmark and real-world tasks, respectively. These results demonstrate that STEP consistently advances the Pareto frontier of inference latency and success rate over existing methods.
- Abstract(参考訳): 拡散ポリシは, ロボット操作において, 動作シーケンスの分布をモデル化し, マルチモーダリティを捉える能力により, ビジュモータ制御の強力なパラダイムとして最近登場した。
しかし、反復デノゲーションは、リアルタイム閉ループシステムにおける制御周波数を制限し、相当な推論遅延をもたらす。
既存の加速法は、サンプリングステップの削減、直接予測による拡散の回避、過去の動作の再利用などを行うが、多くの場合、アクションの品質を共同で保存し、一貫して低レイテンシを実現するのに苦労する。
本研究では,従来の拡散政策の生成能力を損なうことなく,目標行動に分布的に近づき,時間的に一貫した高品位なウォームスタート動作を構築するための,軽量な時空間整合性予測機構STEPを提案する。
そこで本研究では,特に実世界のタスクにおいて動作停止を防止するために,時間的動作の変化に基づいてアクティベーション励振を適応的に調節する速度認識型摂動注入機構を提案する。
さらに,提案した予測が局所的な縮約写像を誘導し,拡散微細化時の動作誤差の収束を確実にすることを示す理論的解析を行った。
シミュレーションされた9つのベンチマークと2つの実世界のタスクについて広範囲に評価する。
特に、2ステップのSTEPは、それぞれRoboMimicベンチマークと実世界のタスクでBRIDGERとDDIMよりも平均21.6%と27.5%高い成功率を達成することができる。
これらの結果は、STEPが既存の手法よりも推論遅延と成功率のParetoフロンティアを一貫して前進させることを示す。
関連論文リスト
- ForeDiffusion: Foresight-Conditioned Diffusion Policy via Future View Construction for Robot Manipulation [37.67451041903772]
拡散戦略は、高次元の動作シーケンスを段階的に denoising することによって、高度な視覚運動制御を行う。
本稿では,予測される将来のビュー表現を拡散過程に注入することにより,フォレスト・コンディションド・ディフュージョン(フォレスト・ディフュージョン)を提案する。
ForeDiffusionは、タスク全体の平均成功率80%を達成し、既存のメインストリーム拡散法を23%上回った。
論文 参考訳(メタデータ) (2026-01-19T10:28:42Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - SynCast: Synergizing Contradictions in Precipitation Nowcasting via Diffusion Sequential Preference Optimization [62.958457694151384]
本研究では,大規模な言語モデルにおける人的フィードバックからの強化学習の成功を動機として,降水量の最適化を初めて導入する。
第一段階では、フレームワークはFARを減らすことに焦点を当て、誤報を効果的に抑えるためにモデルを訓練する。
論文 参考訳(メタデータ) (2025-10-22T16:11:22Z) - Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting [52.6508222408558]
Eucidated Rolling Diffusion Models (ERDM)を紹介する。
ERDMはEucidated Diffusion Models (EDM) の原理的, 性能的設計とローリング予測構造を統一する最初のフレームワークである
2D Navier-StokesシミュレーションとERA5グローバル気象予報の1.5円解像度では、ERDMはキー拡散ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-24T21:44:31Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Score and Distribution Matching Policy: Advanced Accelerated Visuomotor Policies via Matched Distillation [29.90613565503628]
視覚的モビリティ学習のためのスコア・アンド・ディストリビューション・マッチング・ポリシー(SDM Policy)を提案する。
SDMポリシーは拡散ベースのポリシーを2段階最適化プロセスを通じて単一ステップジェネレータに変換する。
最先端のアクション品質を持ちながら、6倍の推論スピードアップを達成する。
論文 参考訳(メタデータ) (2024-12-12T13:22:02Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文 参考訳(メタデータ) (2024-06-14T14:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。