論文の概要: RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2506.17811v1
- Date: Sat, 21 Jun 2025 20:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.596893
- Title: RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models
- Title(参考訳): RoboMonkey: 視覚-言語-アクションモデルにおけるテスト時間サンプリングのスケーリングと検証
- Authors: Jacky Kwok, Christopher Agia, Rohan Sinha, Matt Foutter, Shulu Li, Ion Stoica, Azalia Mirhoseini, Marco Pavone,
- Abstract要約: 我々は、Vision-Language-Action(VLA)モデルのテスト時間スケーリングフレームワークであるRoboMonkeyを紹介した。
RoboMonkeyは、VLAから小さなアクションの集合をサンプリングし、ガウス摂動と過半数投票を適用してアクション提案分布を構築し、次に視覚言語モデル(VLM)ベースの検証器を使用して最適なアクションを選択する。
既存のVLAとRoboMonkeyのペアリングは大きなパフォーマンス向上をもたらし、アウト・オブ・ディストリビューションタスクでは25%、イン・ディストリビューションタスクでは8%の絶対的な改善を実現している。
- 参考スコア(独自算出の注目度): 28.422082187079166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have demonstrated remarkable capabilities in visuomotor control, yet ensuring their robustness in unstructured real-world environments remains a persistent challenge. In this paper, we investigate test-time scaling through the lens of sampling and verification as means to enhance the robustness and generalization of VLAs. We first demonstrate that the relationship between action error and the number of generated samples follows an exponentiated power law across a range of VLAs, indicating the existence of inference-time scaling laws. Building on these insights, we introduce RoboMonkey, a test-time scaling framework for VLAs. At deployment, RoboMonkey samples a small set of actions from a VLA, applies Gaussian perturbation and majority voting to construct an action proposal distribution, and then uses a Vision Language Model (VLM)-based verifier to select the optimal action. We propose a synthetic data generation pipeline for training such VLM-based action verifiers, and demonstrate that scaling the synthetic dataset consistently improves verification and downstream accuracy. Through extensive simulated and hardware experiments, we show that pairing existing VLAs with RoboMonkey yields significant performance gains, achieving a 25% absolute improvement on out-of-distribution tasks and 8% on in-distribution tasks. Additionally, when adapting to new robot setups, we show that fine-tuning both VLAs and action verifiers yields a 7% performance increase compared to fine-tuning VLAs alone.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ヴィジュモータ制御において顕著な能力を示したが、非構造化現実環境におけるロバスト性は依然として持続的な課題である。
本稿では,VLAのロバスト性と一般化を向上する手段として,サンプリングと検証のレンズによるテスト時間スケーリングについて検討する。
まず, 動作誤差と生成サンプル数の関係は, VLA の範囲にまたがる指数化電力法則に従っており, 推定時間スケーリング法則の存在を示唆している。
これらの洞察に基づいて、VLAのテストタイムスケーリングフレームワークであるRoboMonkeyを紹介します。
デプロイ時に、RoboMonkeyはVLAから小さなアクションのセットをサンプリングし、ガウスの摂動と過半数投票を適用してアクションプロポーザルを構築し、次に視覚言語モデル(VLM)ベースの検証器を使用して最適なアクションを選択する。
本稿では,VLMに基づく行動検証器を訓練するための合成データ生成パイプラインを提案する。
シミュレーションおよびハードウェア実験により,既存のVLAとRoboMonkeyのペアリングは大幅な性能向上を実現し,アウト・オブ・ディストリビューションタスクでは25%,イン・ディストリビューションタスクでは8%の絶対的な改善を実現した。
さらに、新しいロボットのセットアップに適応すると、VLAとアクション検証器の両方を微調整すると、細調整VLA単独に比べて7%性能が向上することを示す。
関連論文リスト
- SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [69.54069477520534]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation [7.8735930411335895]
Vision-Language-Action(VLA)モデルは、ロボット操作タスクのための統合されたソリューションである。
VLAモデルのデータ駆動性は、解釈可能性の欠如と相まって、その有効性と堅牢性を保証することが難しい課題である。
本稿では,VLAモデルの評価に特化して設計された,包括的で効率的なプラットフォームであるLADEVを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:49:16Z) - VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation [7.8735930411335895]
本稿では,VLAモデルをテストするロボット操作シーンを生成するファジィフレームワークであるVLATestを紹介する。
VLATestに基づいて,7つの代表的なVLAモデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2024-09-19T16:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。