論文の概要: Pre-VLA: Preemptive Runtime Verification for Reliable Vision-Language-Action and World-Model Rollouts
- arxiv url: http://arxiv.org/abs/2605.22446v1
- Date: Thu, 21 May 2026 13:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.266502
- Title: Pre-VLA: Preemptive Runtime Verification for Reliable Vision-Language-Action and World-Model Rollouts
- Title(参考訳): Pre-VLA: 信頼性の高いビジョンランゲージアクションとワールドモデルロールアウトのためのプリエンプティブランタイム検証
- Authors: Zhen Sun, Yongjian Guo, Haoran Sun, Luqiao Wang, Wei Lu, Jiachi Ji, Shengzhe Ji, Junwu Xiong, Zhijun Meng,
- Abstract要約: 低品質なアクションは、実行中に物理的な障害を引き起こしたり、冗長なレンダリングコストで世界モデルのロールアウトを誤解させるおそれがある。
実演や世界モデルの想像力の前にプリエンプティブ・アクションアセスメントの妥当性を示す統一型ランタイム検証アーキテクチャであるPre-VLAを提案する。
- 参考スコア(独自算出の注目度): 18.44683570310399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large vision-language-action (VLA) models and generative world models (WM) have advanced long-horizon embodied intelligence, their practical deployment remains challenged by uncertainty in learning-based action generation. Low-quality actions may cause physical failures during execution or lead to misleading world-model rollouts with redundant rendering costs. To address this issue, we propose Pre-VLA, a unified runtime verification architecture that performs preemptive action validity assessment before physical execution or world-model imagination. Pre-VLA leverages an efficient multimodal backbone with modality-aware pooling and a lightweight dual-branch head to predict both safety confidence and critic-derived advantage scores for candidate action chunks. To handle severe class imbalance and unstable boundary decisions, we train Pre-VLA with a multi-task objective combining Focal classification, advantage regression, and soft-threshold calibration. During deployment, a dual-mode preemptive resampling scheduler filters low-quality actions and triggers adaptive resampling under a limited computation budget. Experiments on the LIBERO benchmark show that Pre-VLA improves the average closed-loop success rate across four suites from 30.79\% to 37.62\% over RynnVLA-002, reduces task execution steps, achieves 183.9 ms average forward verification time per action chunk, and mitigates error accumulation in world-model rollouts.
- Abstract(参考訳): 大規模視覚言語行動モデル (VLA) と生成世界モデル (WM) は、先進的なロングホライゾンエンボディインテリジェンスを持つが、その実践的展開は、学習に基づく行動生成の不確実性によって挑戦されている。
低品質なアクションは、実行中に物理的な障害を引き起こしたり、冗長なレンダリングコストで世界モデルのロールアウトを誤解させるおそれがある。
この問題に対処するため,実演や世界モデルの想像力の前にプリエンプティブな行動妥当性評価を行う,統一型ランタイム検証アーキテクチャであるPre-VLAを提案する。
プレVLAは、モダリティを意識したプーリングと軽量なデュアルブランチヘッドを備えた効率的なマルチモーダルバックボーンを活用し、安全性の信頼性と、候補となるアクションチャンクに対する批評家による有利なスコアの両方を予測する。
重度のクラス不均衡と不安定な境界決定に対処するために、フォカル分類、有利回帰、ソフト閾値校正を組み合わせたマルチタスク目的のプレVLAを訓練する。
デプロイ中、デュアルモードプリエンプティブリサンプリングスケジューラは、低品質なアクションをフィルタリングし、限られた計算予算の下で適応リサンプリングをトリガーする。
LIBEROベンチマークの実験では、プレVLAはRynnVLA-002よりも30.79\%から37.62\%までの4つのスイートの平均クローズドループ成功率を改善し、タスクの実行手順を減らし、アクションチャンク当たり平均183.9msを達成し、ワールドモデルロールアウトにおけるエラー蓄積を軽減している。
関連論文リスト
- LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models [13.30873593845724]
LoopVLAは、表現の洗練、アクション予測、十分性推定を学習する、リカレントなVision-Language-Actionアーキテクチャである。
この結果から,LoopVLAはVLAポリシーの効率性向上のフロンティアを推し進め,パラメータを45%削減し,推論スループットを最大1.7倍向上させることを示した。
論文 参考訳(メタデータ) (2026-05-11T03:51:22Z) - RePO-VLA: Recovery-Driven Policy Optimization for Vision-Language-Action Models [90.39703013636868]
RePO-VLAは、リカバリ駆動のポリシー最適化フレームワークである。
成功、回復、失敗の軌跡に異なる役割を割り当てる。
対人的な成功は、平均で20%から75%、実世界の規模で80%まで上昇する。
論文 参考訳(メタデータ) (2026-05-10T08:24:05Z) - CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies [26.36935074374452]
フローベースの視覚言語アクション(VLA)ポリシーは、アクション生成に対して強い表現力を提供するが、基本的な非効率性に悩まされる。
本稿では, アクション生成を粗大なステップに再構成する粗大な2段階の定式化であるCF-VLAを提案する。
提案手法は,低NFE(Number of Function Evaluations)体制下で高い効率性能のフロンティアを確立する。
論文 参考訳(メタデータ) (2026-04-27T15:51:40Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding [60.06899554269808]
サイクロンVLA(CycleVLA)は、VLA(Vision-Language-Action Model)を積極的に自己補正するシステムである。
CycleVLAは、重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLAを統合することで、これを実現する。
大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2026-01-05T17:31:01Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。