論文の概要: DEFLECT: Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning for VLA Policies
- arxiv url: http://arxiv.org/abs/2605.19294v1
- Date: Tue, 19 May 2026 03:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.093509
- Title: DEFLECT: Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning for VLA Policies
- Title(参考訳): DEFLECT:VLA政策のフローマッチングによる遅延・ロバスト実行
- Authors: Yixiang Zhu, Yonghao Chen, Rui Meng, Jingyu Guo, Jiaxiang Zou, Zijie Yang, Taowen Wang, Xinyu Chen,
- Abstract要約: DEFLECTは、非同期VLA制御の使用可能な遅延エンベロープを大幅に拡張し、高遅延状態(5-7制御ステップ)で+6.4の成功率を、最も長い遅延時間で実スケールVLAに移行すると+4.6とした。
- 参考スコア(独自算出の注目度): 12.248643831532663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) policies are typically deployed with asynchronous inference: the robot executes a previously predicted action chunk while the model computes the next one. This creates a prediction-execution misalignment: the chunk is conditioned on the observation taken before inference began, but executes in a physical state that has already drifted forward by several control steps; naive asynchronous rollover collapses from 89% to under 1% on Kinetix as the inference cycle covers up to seven control steps. We introduce DEFLECT, a fully offline post-training refinement that applies as a near drop-in upgrade to existing async-VLA stacks by converting latency itself into a label-free preference signal: counterfactual fresh/stale action pairs are constructed from a frozen reference policy and scored under the deployment-time conditioning via an implicit flow-matching likelihood-ratio surrogate, with no human labels, reward models, or online rollouts. DEFLECT substantially extends the usable delay envelope of async VLA control, with +6.4 success-rate gain in the high-latency regime (5-7 control steps), +4.6 when transferred to a real-scale VLA at the longest delay, and consistent improvements on two real-robot tasks (a bimanual conveyor pick-and-place and a reactive whack-a-mole).
- Abstract(参考訳): VLA(Vision-Language-Action)ポリシは一般的に非同期推論でデプロイされる。
チャンクは推論開始前の観測で条件付けされているが、いくつかの制御ステップで既にドリフトしている物理状態で実行される。
遅延自体をラベルなしの優先信号に変換することで、既存の非同期-VLAスタックのほぼダウンインアップグレードとして適用可能な、完全にオフラインのポストトレーニング改善であるDEFLECTを紹介します。
DEFLECTは非同期VLA制御における使用可能な遅延エンベロープを大幅に拡張し、高遅延状態(5-7制御ステップ)における+6.4の成功率ゲイン(5-7制御ステップ)、より長い遅延時間で実スケールVLAに転送された+4.6、そして2つの実ロボットタスク(バイマティックコンベヤピック・アンド・プレイスとリアクティブ・ワック・ア・モール)を一貫して改善した。
関連論文リスト
- Dynamic Execution Commitment of Vision-Language-Action Models [21.647844049489535]
本稿では,動的実行コミットメントを自己特定的プレフィックス検証問題として再編成する適応アクションアクセプタンス機構であるA3を紹介する。
A3はまず、グループサンプリングを介して行動の軌跡的なコンセンサススコアを計算し、次に代表ドラフトを選択し、下流検証を優先する。
さまざまなVLAモデルとベンチマークの実験では、A3は手動の水平調整の必要性を排除し、実行と推論のスループットのトレードオフを優れたものにしている。
論文 参考訳(メタデータ) (2026-05-12T05:52:58Z) - VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model [54.35791816657227]
適応型テスト時間計算でVLAモデルを実現するフレームワークである textbfVLA-ATTC' を導入する。
VLA-ATTCは、不確実性に基づく認知クラッチ'を用いて、反射的実行からTTC熟考フェーズへ動的に移行する。
LIBERO-LONGベンチマークでは、VLA-ATTCはSOTAモデルPI0.5の故障率を50%以上削減する。
論文 参考訳(メタデータ) (2026-05-02T02:13:11Z) - DiscreteRTC: Discrete Diffusion Policies are Natural Asynchronous Executors [57.944744187489185]
外部修正をネイティブなアンマスクに置き換えるDiscreteRTCを提案する。
DiscreteRTCは、非同期のインペインティングのために0行のコードを実装するのが簡単で、スクラッチから生成したアクションに比べてわずか0.7倍の計算速度で推論が高速で、フローベースのRTCに比べて実世界の動的ピックタスクの成功率が50%向上した。
論文 参考訳(メタデータ) (2026-04-27T23:04:03Z) - Open-Loop Planning, Closed-Loop Verification: Speculative Verification for VLA [27.06233662271175]
提案するSV-VLA(Speculative Verification for VLA Control)は,効率的なオープンループ長期計画と軽量なクローズドループオンライン検証を組み合わせたフレームワークである。
実験の結果、SV-VLAはチャンク予測の効率と閉ループ制御の堅牢性を組み合わせることで、動的環境における効率よく信頼性の高いVLAベースの制御を可能にする。
論文 参考訳(メタデータ) (2026-04-03T10:55:51Z) - FASTER: Rethinking Real-Time Flow VLAs [82.58822112377923]
VLA(Vision-Language-Action)モデルを物理世界に展開するには、リアルタイム実行が不可欠である。
反応時間は、TTFA(Time to First Action)と実行地平線によって決定される一様分布に従っていることを示す。
即時反応のための高速動作サンプリング(FASTER)を提案し,この問題を克服する。
論文 参考訳(メタデータ) (2026-03-19T17:51:37Z) - AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge [49.66156306240961]
高レイテンシは制御ループを壊し、リアルタイムデプロイメントでは安全でない強力なモデルをレンダリングする。
リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。
AsyncVLAは、最先端のベースラインよりも40%高い成功率を達成する。
論文 参考訳(メタデータ) (2026-02-13T21:31:19Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Leave No Observation Behind: Real-time Correction for VLA Action Chunks [36.13271200613596]
非同期アクションチャンク補正(A2C2)は、制御ステップ毎に実行される軽量なリアルタイムチャンク補正ヘッドである。
A2C2は,高容量チャンキングポリシーをリアルタイム制御に展開するための効果的なプラグイン機構であることを示す。
論文 参考訳(メタデータ) (2025-09-27T10:07:49Z) - One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。