Fugu-MT 論文翻訳(概要): RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

論文の概要: RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2506.17811v2
Date: Mon, 07 Jul 2025 02:08:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 17:51:39.994815
Title: RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models
Title（参考訳）: RoboMonkey: 視覚-言語-アクションモデルにおけるテスト時間サンプリングのスケーリングと検証
Authors: Jacky Kwok, Christopher Agia, Rohan Sinha, Matt Foutter, Shulu Li, Ion Stoica, Azalia Mirhoseini, Marco Pavone,
Abstract要約: 我々は、Vision-Language-Action(VLA)モデルのテスト時間スケーリングフレームワークであるRoboMonkeyを紹介した。 RoboMonkeyは、VLAから小さなアクションの集合をサンプリングし、ガウス摂動と過半数投票を適用してアクション提案分布を構築し、次に視覚言語モデル(VLM)ベースの検証器を使用して最適なアクションを選択する。既存のVLAとRoboMonkeyのペアリングは大きなパフォーマンス向上をもたらし、アウト・オブ・ディストリビューションタスクでは25%、イン・ディストリビューションタスクでは9%の絶対的な改善を実現している。
参考スコア（独自算出の注目度）: 28.422082187079166
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models have demonstrated remarkable capabilities in visuomotor control, yet ensuring their robustness in unstructured real-world environments remains a persistent challenge. In this paper, we investigate test-time scaling through the lens of sampling and verification as means to enhance the robustness and generalization of VLAs. We first demonstrate that the relationship between action error and the number of generated samples follows an exponentiated power law across a range of VLAs, indicating the existence of inference-time scaling laws. Building on these insights, we introduce RoboMonkey, a test-time scaling framework for VLAs. At deployment, RoboMonkey samples a small set of actions from a VLA, applies Gaussian perturbation and majority voting to construct an action proposal distribution, and then uses a Vision Language Model (VLM)-based verifier to select the optimal action. We propose a synthetic data generation pipeline for training such VLM-based action verifiers, and demonstrate that scaling the synthetic dataset consistently improves verification and downstream accuracy. Through extensive simulated and hardware experiments, we show that pairing existing VLAs with RoboMonkey yields significant performance gains, achieving a 25% absolute improvement on out-of-distribution tasks and 9% on in-distribution tasks. Additionally, when adapting to new robot setups, we show that fine-tuning both VLAs and action verifiers yields a 7% performance increase compared to fine-tuning VLAs alone.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、ヴィジュモータ制御において顕著な能力を示したが、非構造化現実環境におけるロバスト性は依然として持続的な課題である。本稿では,VLAのロバスト性と一般化を向上する手段として,サンプリングと検証のレンズによるテスト時間スケーリングについて検討する。まず, 動作誤差と生成サンプル数の関係は, VLA の範囲にまたがる指数化電力法則に従っており, 推定時間スケーリング法則の存在を示唆している。これらの洞察に基づいて、VLAのテストタイムスケーリングフレームワークであるRoboMonkeyを紹介します。デプロイ時に、RoboMonkeyはVLAから小さなアクションのセットをサンプリングし、ガウスの摂動と過半数投票を適用してアクションプロポーザルを構築し、次に視覚言語モデル(VLM)ベースの検証器を使用して最適なアクションを選択する。本稿では,VLMに基づく行動検証器を訓練するための合成データ生成パイプラインを提案する。シミュレーションおよびハードウェア実験により,既存のVLAとRoboMonkeyのペアリングは大幅な性能向上を実現し,アウト・オブ・ディストリビューションタスクでは25%,イン・ディストリビューションタスクでは9%の絶対的な改善を実現した。さらに、新しいロボットのセットアップに適応すると、VLAとアクション検証器の両方を微調整すると、細調整VLA単独に比べて7%性能が向上することを示す。

関連論文リスト

Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance [27.47568622830058]
この研究は、Vision-Language-Action(VLA)モデルを高速化するために設計されたSDフレームワークであるSpec-VLAを紹介する。生成速度を向上させるために,VLAモデルのアクショントークンで表される相対距離を利用して,受理を緩和する効果的な機構を提案する。
論文参考訳（メタデータ） (2025-07-30T07:04:09Z)
Group Relative Augmentation for Data Efficient Action Detection [11.169883977958454]
アクション検出にVLM(Big Video-Language Models)を適応させるには、いくつかの例が課題となっている。パラメータ係数チューニング(LoRA)と新たな学習可能な内部特徴拡張を組み合わせた効率的な適応戦略を提案する。複雑なマルチラベル・マルチパーソン動作検出データセットに対して,本手法の有効性を示す。
論文参考訳（メタデータ） (2025-07-28T21:46:05Z)
EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。 1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文参考訳（メタデータ） (2025-07-18T16:15:09Z)
CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation [67.1520483301709]
CronusVLAはシングルフレームのVLAモデルを効率的な後トレーニング段階を通じてマルチフレームのパラダイムに拡張する統合フレームワークである。 CronusVLAはSimplerEnvの最先端のパフォーマンスを70.9%の成功率で達成し、LIBEROのOpenVLAよりも12.7%改善した。
論文参考訳（メタデータ） (2025-06-24T17:30:27Z)
SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [69.54069477520534]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文参考訳（メタデータ） (2025-06-15T05:04:17Z)
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文参考訳（メタデータ） (2025-03-27T22:23:04Z)
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文参考訳（メタデータ） (2025-02-27T00:30:29Z)
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。 VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文参考訳（メタデータ） (2024-11-29T12:06:03Z)
LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation [7.8735930411335895]
Vision-Language-Action(VLA)モデルは、ロボット操作タスクのための統合されたソリューションである。 VLAモデルのデータ駆動性は、解釈可能性の欠如と相まって、その有効性と堅牢性を保証することが難しい課題である。本稿では,VLAモデルの評価に特化して設計された,包括的で効率的なプラットフォームであるLADEVを提案する。
論文参考訳（メタデータ） (2024-10-07T16:49:16Z)
VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation [7.8735930411335895]
本稿では,VLAモデルをテストするロボット操作シーンを生成するファジィフレームワークであるVLATestを紹介する。 VLATestに基づいて,7つの代表的なVLAモデルの性能評価実験を行った。
論文参考訳（メタデータ） (2024-09-19T16:33:00Z)
OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文参考訳（メタデータ） (2024-06-13T15:46:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。