論文の概要: Action Draft and Verify: A Self-Verifying Framework for Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2603.18091v1
- Date: Wed, 18 Mar 2026 09:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.75885
- Title: Action Draft and Verify: A Self-Verifying Framework for Vision-Language-Action Model
- Title(参考訳): Action Draft and Verify: Vision-Language-Action Modelのための自己検証フレームワーク
- Authors: Chen Zhao, Zhuoran Wang, Haoyang Li, Shifeng Bao, Guanlin Li, Youhe Feng, Yang Li, Jie Tang, Jing Zhang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、最近、具体化されたタスク間で強力なパフォーマンスを示した。
本稿では,拡散行動専門家が複数の候補アクションチャンクをドラフトし,VLMが各候補を1つの前方パスに1つの難易度基準でスコア付けして1つを選択することを提案する。
マッチしたバックボーン、トレーニングデータ、アクション・チャンク長では、ADVは拡散ベースのベースラインよりも実世界の+4.3ポイント、+19.7ポイントで成功率を向上させる。
- 参考スコア(独自算出の注目度): 31.013109374489442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have recently demonstrated strong performance across embodied tasks. Modern VLAs commonly employ diffusion action experts to efficiently generate high-precision continuous action chunks, while auto-regressive generation can be slower and less accurate at low-level control. Yet auto-regressive paradigms still provide complementary priors that can improve robustness and generalization in out-of-distribution environments. To leverage both paradigms, we propose Action-Draft-and-Verify (ADV): diffusion action expert drafts multiple candidate action chunks, and the VLM selects one by scoring all candidates in a single forward pass with a perplexity-style metric. Under matched backbones, training data, and action-chunk length, ADV improves success rate by +4.3 points in simulation and +19.7 points in real-world over diffusion-based baseline, with a single-pass VLM reranking overhead.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、最近、具体化されたタスク間で強力なパフォーマンスを示した。
現代のVLAは拡散作用の専門家を用いて高速連続的な作用チャンクを効率よく生成するのに対し、自己回帰生成は低レベルの制御では遅く、正確ではない。
しかし、自己回帰的パラダイムは相補的な事前を提供し、アウト・オブ・ディストリビューション環境における堅牢性と一般化を改善することができる。
両パラダイムを利用するために,拡散アクションエキスパートが複数の候補アクションチャンクをドラフトし,VLMは1つの前方通過ですべての候補をパープレキシティスタイルのメトリクスでスコアリングして1つを選択する。
マッチしたバックボーン、トレーニングデータ、アクション・チャンク長の下で、ADVはシミュレーションにおける成功率を+4.3ポイント、拡散ベースのベースラインよりも+19.7ポイント改善し、シングルパスのVLMがオーバーヘッドを優先する。
関連論文リスト
- FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。