論文の概要: Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment
- arxiv url: http://arxiv.org/abs/2602.12281v1
- Date: Thu, 12 Feb 2026 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:26.003979
- Title: Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment
- Title(参考訳): ビジョンランゲージ・アクションアライメントのためのポリシー学習のスケーリングよりも、検証のスケーリングが効果的である
- Authors: Jacky Kwok, Xilun Zhang, Mengdi Xu, Yuejiang Liu, Azalia Mirhoseini, Chelsea Finn, Marco Pavone,
- Abstract要約: 視覚-言語-行動アライメントのためのコントラスト検証器を提案する。
我々のフレームワークはビジョン・ランゲージ・モデルから多種多様な説明文をプリコンプリートする。
各命令に対して繰り返しアクション候補を生成し、検証器を使用して最適なハイレベルプロンプトと低レベルアクションチャンクを選択する。
- 参考スコア(独自算出の注目度): 58.93227458806748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The long-standing vision of general-purpose robots hinges on their ability to understand and act upon natural language instructions. Vision-Language-Action (VLA) models have made remarkable progress toward this goal, yet their generated actions can still misalign with the given instructions. In this paper, we investigate test-time verification as a means to shrink the "intention-action gap.'' We first characterize the test-time scaling law for embodied instruction following and demonstrate that jointly scaling the number of rephrased instructions and generated actions greatly increases test-time sample diversity, often recovering correct actions more efficiently than scaling each dimension independently. To capitalize on these scaling laws, we present CoVer, a contrastive verifier for vision-language-action alignment, and show that our architecture scales gracefully with additional computational resources and data. We then introduce "boot-time compute" and a hierarchical verification inference pipeline for VLAs. At deployment, our framework precomputes a diverse set of rephrased instructions from a Vision-Language-Model (VLM), repeatedly generates action candidates for each instruction, and then uses a verifier to select the optimal high-level prompt and low-level action chunks. Compared to scaling policy pre-training on the same data, our verification approach yields 22% gains in-distribution and 13% out-of-distribution on the SIMPLER benchmark, with a further 45% improvement in real-world experiments. On the PolaRiS benchmark, CoVer achieves 14% gains in task progress and 9% in success rate.
- Abstract(参考訳): 汎用ロボットの長年のビジョンは、自然言語の指示を理解し、行動する能力に依存している。
VLA(Vision-Language-Action)モデルは、この目標に向けて顕著な進歩を遂げているが、生成されたアクションは、与えられた命令といまだに不一致である。
本稿では,まず,「意図-行動ギャップ」を縮小する手段として,テスト時検証について検討する。我々はまず,文言命令の数と生成された動作を共同でスケーリングするテスト時スケーリング法を特徴付けるとともに,テスト時サンプルの多様性を著しく向上させ,各次元を独立にスケーリングするよりも効率的に正しい動作を回復させることがしばしばあることを実証する。このスケーリング法則を活かすために,視覚-言語-行動アライメントのためのコントラッシブ検証器であるCoVerを紹介し,我々のアーキテクチャが,付加的な計算資源とデータとともに適切にスケールすることを示し,次に,VLAのための階層的検証パイプラインを導入する。
デプロイメントでは,VLM(Vision-Language-Model)から多種多様な命令をプリコンプリートし,各命令に対して繰り返しアクション候補を生成し,検証器を用いて最適なハイレベルプロンプトと低レベルアクションチャンクを選択する。
同じデータで事前学習するスケーリングポリシと比較して、我々の検証アプローチでは、SIMPLERベンチマークで22%の配当と13%の配当が得られ、実際の実験ではさらに45%改善されている。
PolaRiSベンチマークでは、タスクの進捗が14%、成功率が9%に達した。
関連論文リスト
- LangForce: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries [30.732526921367835]
LangForceは、ベイズ分解による命令を強制する新しいフレームワークである。
我々は,新しいデータを必要としないLangForceの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2026-01-21T17:15:22Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models [28.422082187079166]
我々は、Vision-Language-Action(VLA)モデルのテスト時間スケーリングフレームワークであるRoboMonkeyを紹介した。
RoboMonkeyは、VLAから小さなアクションの集合をサンプリングし、ガウス摂動と過半数投票を適用してアクション提案分布を構築し、次に視覚言語モデル(VLM)ベースの検証器を使用して最適なアクションを選択する。
既存のVLAとRoboMonkeyのペアリングは大きなパフォーマンス向上をもたらし、アウト・オブ・ディストリビューションタスクでは25%、イン・ディストリビューションタスクでは9%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-06-21T20:56:17Z) - Improving Large Language Model Planning with Action Sequence Similarity [50.52049888490524]
本研究では,インコンテキスト学習(ICL)によるモデル計画能力の向上について検討する。
GRASE-DC は2段階のパイプラインで,まず高効率のAS例を再サンプリングし,選択した例をキュレートする。
実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-02T05:16:17Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。