論文の概要: Open-Loop Planning, Closed-Loop Verification: Speculative Verification for VLA
- arxiv url: http://arxiv.org/abs/2604.02965v1
- Date: Fri, 03 Apr 2026 10:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.452858
- Title: Open-Loop Planning, Closed-Loop Verification: Speculative Verification for VLA
- Title(参考訳): Open-Loop Planning, Close-Loop Verification: Speculative Verification for VLA
- Authors: Zihua Wang, Zhitao Lin, Ruibo Li, Yu Zhang, Xu Yang, Siya Mi, Xiu-Shen Wei,
- Abstract要約: 提案するSV-VLA(Speculative Verification for VLA Control)は,効率的なオープンループ長期計画と軽量なクローズドループオンライン検証を組み合わせたフレームワークである。
実験の結果、SV-VLAはチャンク予測の効率と閉ループ制御の堅牢性を組み合わせることで、動的環境における効率よく信頼性の高いVLAベースの制御を可能にする。
- 参考スコア(独自算出の注目度): 27.06233662271175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models, as large foundation models for embodied control, have shown strong performance in manipulation tasks. However, their performance comes at high inference cost. To improve efficiency, recent methods adopt action chunking, which predicts a sequence of future actions for open-loop execution. Although effective for reducing computation, open-loop execution is sensitive to environmental changes and prone to error accumulation due to the lack of close-loop feedback. To address this limitation, we propose Speculative Verification for VLA Control (SV-VLA), a framework that combines efficient open-loop long-horizon planning with lightweight closed-loop online verification. Specifically, SV-VLA uses a heavy VLA as a low-frequency macro-planner to generate an action chunk together with a planning context, while a lightweight verifier continuously monitors execution based on the latest observations. Conditioned on both the current observation and the planning context, the verifier compares the planned action against a closed-loop reference action and triggers replanning only when necessary. Experiments demonstrate that SV-VLA combines the efficiency of chunked prediction with the robustness of closed-loop control, enabling efficient and reliable VLA-based control in dynamic environments. Code is available: https://github.com/edsad122/SV-VLA.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、操作タスクにおいて大きな基礎モデルである。
しかし、その性能は推論コストが高い。
効率を改善するために、最近の手法では、オープンループ実行のための将来のアクションのシーケンスを予測するアクションチャンキングを採用している。
計算の削減には有効だが、オープンループの実行は環境変化に敏感であり、クローズループフィードバックの欠如によりエラーの蓄積が困難になる。
この制限に対処するために、効率的なオープンループ長期計画と軽量クローズドループオンライン検証を組み合わせたフレームワークであるSV-VLA(Speculative Verification for VLA Control)を提案する。
具体的には、SV-VLAは重いVLAを低周波マクロプランナとして使用し、計画コンテキストとともにアクションチャンクを生成し、軽量検証器は最新の観測に基づいて実行を継続的に監視する。
現在の観察と計画コンテキストの両方で条件付きで、検証者は計画されたアクションをクローズドループ参照アクションと比較し、必要に応じてのみ再計画をトリガーする。
実験の結果、SV-VLAはチャンク予測の効率と閉ループ制御の堅牢性を組み合わせることで、動的環境における効率よく信頼性の高いVLAベースの制御を可能にする。
コードは、https://github.com/edsad122/SV-VLA.comで入手できる。
関連論文リスト
- Latent Reasoning VLA: Latent Thinking and Prediction for Vision-Language-Action Models [69.58413440457828]
VLA(Vision-Language-Action)モデルは、チェーン・オブ・思想(CoT)推論の恩恵を受けるが、既存のアプローチでは高い推論オーバーヘッドが生じる。
本稿では,マルチモーダル CoT 推論を具体化するための連続潜時表現に内包する統合 VLA フレームワークである Latent Reasoning VLA (textbfLaRA-VLA) を提案する。
論文 参考訳(メタデータ) (2026-02-01T11:34:37Z) - AC^2-VLA: Action-Context-Aware Adaptive Computation in Vision-Language-Action Models for Efficient Robotic Manipulation [21.23747444669735]
VLAモデル(AC2-VLA)に対するアクションコンテキスト対応適応計算を提案する。
AC2-VLAは、タイムステップ間の認識再利用、トークンプルーニング、統一メカニズム内のモデルコンポーネントの選択的な実行を適応的に行う。
ロボット操作ベンチマークの実験では、AC2-VLAはFLOPを29.4%まで減らし、最大1.79倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-27T14:10:39Z) - CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding [60.06899554269808]
サイクロンVLA(CycleVLA)は、VLA(Vision-Language-Action Model)を積極的に自己補正するシステムである。
CycleVLAは、重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLAを統合することで、これを実現する。
大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2026-01-05T17:31:01Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Leave No Observation Behind: Real-time Correction for VLA Action Chunks [36.13271200613596]
非同期アクションチャンク補正(A2C2)は、制御ステップ毎に実行される軽量なリアルタイムチャンク補正ヘッドである。
A2C2は,高容量チャンキングポリシーをリアルタイム制御に展開するための効果的なプラグイン機構であることを示す。
論文 参考訳(メタデータ) (2025-09-27T10:07:49Z) - RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models [28.422082187079166]
我々は、Vision-Language-Action(VLA)モデルのテスト時間スケーリングフレームワークであるRoboMonkeyを紹介した。
RoboMonkeyは、VLAから小さなアクションの集合をサンプリングし、ガウス摂動と過半数投票を適用してアクション提案分布を構築し、次に視覚言語モデル(VLM)ベースの検証器を使用して最適なアクションを選択する。
既存のVLAとRoboMonkeyのペアリングは大きなパフォーマンス向上をもたらし、アウト・オブ・ディストリビューションタスクでは25%、イン・ディストリビューションタスクでは9%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-06-21T20:56:17Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。