論文の概要: Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment
- arxiv url: http://arxiv.org/abs/2602.12281v2
- Date: Wed, 18 Feb 2026 03:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 13:51:30.950245
- Title: Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment
- Title(参考訳): ビジョンランゲージ・アクションアライメントのためのポリシー学習のスケーリングよりも、検証のスケーリングが効果的である
- Authors: Jacky Kwok, Xilun Zhang, Mengdi Xu, Yuejiang Liu, Azalia Mirhoseini, Chelsea Finn, Marco Pavone,
- Abstract要約: CoVer-VLAは、訓練された検証器を用いた階層的なテスト時間検証パイプラインである。
我々のフレームワークはビジョン・ランゲージ・モデルから多種多様な説明文をプリコンプリートする。
各命令に対して繰り返しアクション候補を生成し、検証器を使用して最適なハイレベルプロンプトと低レベルアクションチャンクを選択する。
- 参考スコア(独自算出の注目度): 58.93227458806748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The long-standing vision of general-purpose robots hinges on their ability to understand and act upon natural language instructions. Vision-Language-Action (VLA) models have made remarkable progress toward this goal, yet their generated actions can still misalign with the given instructions. In this paper, we investigate test-time verification as a means to shrink the "intention-action gap." We first characterize the test-time scaling laws for embodied instruction following and demonstrate that jointly scaling the number of rephrased instructions and generated actions greatly increases test-time sample diversity, often recovering correct actions more efficiently than scaling each dimension independently. To capitalize on these scaling laws, we present CoVer, a contrastive verifier for vision-language-action alignment, and show that our architecture scales gracefully with additional computational resources and data. We then introduce CoVer-VLA, a hierarchical test-time verification pipeline using the trained verifier. At deployment, our framework precomputes a diverse set of rephrased instructions from a Vision-Language-Model (VLM), repeatedly generates action candidates for each instruction, and then uses the verifier to select the optimal high-level prompt and low-level action chunks. Compared to scaling policy pre-training on the same data, our verification approach yields 22% gains in-distribution and 13% out-of-distribution on the SIMPLER benchmark, with a further 45% improvement in real-world experiments. On the PolaRiS benchmark, CoVer-VLA achieves 14% gains in task progress and 9% in success rate.
- Abstract(参考訳): 汎用ロボットの長年のビジョンは、自然言語の指示を理解し、行動する能力に依存している。
VLA(Vision-Language-Action)モデルは、この目標に向けて顕著な進歩を遂げているが、生成されたアクションは、与えられた命令といまだに不一致である。
本稿では,「意図-行動ギャップ」を小さくする手段として,テスト時間検証について検討する。
まず,説明文を具体化するためのテストタイムスケーリング法則を特徴付けるとともに,各次元を個別にスケーリングするよりも,正確な動作を効率よく回復させることで,リフレッシュされた命令の数と生成された動作の同時スケーリングがテストタイムサンプルの多様性を大幅に向上させることを示した。
これらのスケーリング法則を活かすために、我々は、視覚-言語-アクションアライメントのための対照的な検証器であるCoVerを紹介し、我々のアーキテクチャは、追加の計算資源とデータで優雅にスケール可能であることを示す。
次に、訓練された検証器を用いた階層的なテスト時間検証パイプラインであるCoVer-VLAを紹介する。
デプロイメントでは,VLM(Vision-Language-Model)から多種多様な命令をプリコンプリートし,各命令に対して繰り返しアクション候補を生成し,検証器を用いて最適なハイレベルプロンプトと低レベルアクションチャンクを選択する。
同じデータで事前学習するスケーリングポリシと比較して、我々の検証アプローチでは、SIMPLERベンチマークで22%の配当と13%の配当が得られ、実際の実験ではさらに45%改善されている。
PolaRiSベンチマークでは、CoVer-VLAがタスクの進捗率14%、成功率9%を達成している。
関連論文リスト
- LangForce: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries [30.732526921367835]
LangForceは、ベイズ分解による命令を強制する新しいフレームワークである。
我々は,新しいデータを必要としないLangForceの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2026-01-21T17:15:22Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models [28.422082187079166]
我々は、Vision-Language-Action(VLA)モデルのテスト時間スケーリングフレームワークであるRoboMonkeyを紹介した。
RoboMonkeyは、VLAから小さなアクションの集合をサンプリングし、ガウス摂動と過半数投票を適用してアクション提案分布を構築し、次に視覚言語モデル(VLM)ベースの検証器を使用して最適なアクションを選択する。
既存のVLAとRoboMonkeyのペアリングは大きなパフォーマンス向上をもたらし、アウト・オブ・ディストリビューションタスクでは25%、イン・ディストリビューションタスクでは9%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-06-21T20:56:17Z) - Improving Large Language Model Planning with Action Sequence Similarity [50.52049888490524]
本研究では,インコンテキスト学習(ICL)によるモデル計画能力の向上について検討する。
GRASE-DC は2段階のパイプラインで,まず高効率のAS例を再サンプリングし,選択した例をキュレートする。
実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-02T05:16:17Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。