論文の概要: Colosseum V2: Benchmarking Generalization for Vision Language Action Models
- arxiv url: http://arxiv.org/abs/2605.27759v1
- Date: Tue, 26 May 2026 23:17:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.592999
- Title: Colosseum V2: Benchmarking Generalization for Vision Language Action Models
- Title(参考訳): Colosseum V2: ビジョン言語アクションモデルのためのベンチマークの一般化
- Authors: Jeremy Morgan, Prajwal Vijay, Hyeonho Oh, Jincen Song, Ashvin Arora, Alina Du, Gaurav Sukhatme, Jesse Thomason, Ishika Singh,
- Abstract要約: Vision-Language-Action (VLA)モデルは、ロボット操作において有望な一般化を示す。
Colosseum V2は、ロボット学習におけるVLA一般化を評価するための大規模なシミュレーションベンチマークである。
ManiSkillシミュレータ上に構築されたColosseum V2は、高速でGPU並列化された評価を可能にする。
- 参考スコア(独自算出の注目度): 7.928181100728332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models demonstrate promising generalization in robotic manipulation, driven by advances in large-scale vision and language pre-training. This progress can be misleading. Despite the zero-shot perception and language capabilities of VLAs, their overall task performance often degrades under distribution shifts, revealing gaps in how these systems translate high-level understanding into robust behavior. To systematically study this gap, we introduce Colosseum V2, a large-scale simulation benchmark for evaluating VLA generalization in robot learning across diverse conditions. The benchmark comprises 28 tasks spanning 13 task categories and two robot morphologies, covering a wide range of manipulation primitives and long-horizon behaviors. Built on the ManiSkill simulator, Colosseum V2 enables fast, GPU-parallelized evaluation and supports both in-domain and out-of-domain testing at scale. We evaluate state-of-the-art methods, including Action Chunking Transformers (ACT) and Pi0.5, and reveal limitations in both base performance and generalization. We demonstrate strong correlations between simulation and real-world metrics that support the ecological validity of the benchmark. By standardizing tasks, metrics, and evaluation protocols within a unified benchmark, Colosseum V2 enables reproducible and fair comparisons, reduced evaluation overhead, and accelerated progress toward general-purpose robot policies.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは、大規模ビジョンと言語事前学習の進歩によって駆動されるロボット操作の有望な一般化を示す。
この進歩は誤解を招く可能性がある。
VLAのゼロショット認識と言語能力にもかかわらず、その全体的なタスクパフォーマンスは、分散シフトの下で低下することが多く、これらのシステムがハイレベルな理解を堅牢な振る舞いに変換する方法のギャップを明らかにする。
このギャップを体系的に研究するために,ロボット学習におけるVLA一般化を評価するための大規模シミュレーションベンチマークであるColosseum V2を導入する。
このベンチマークは、13のタスクカテゴリと2つのロボット形態にまたがる28のタスクで構成され、幅広い操作プリミティブと長い水平動作をカバーしている。
ManiSkillシミュレータ上に構築されたColosseum V2は、高速でGPU並列化された評価を可能にし、大規模なドメイン内テストとドメイン外テストの両方をサポートする。
我々はAction Chunking Transformers (ACT) やPi0.5といった最先端の手法を評価し,基本性能と一般化の両面での限界を明らかにする。
シミュレーションと,ベンチマークの生態学的妥当性を支える実世界の指標との間には,強い相関関係を示す。
統一されたベンチマーク内でタスク、メトリクス、評価プロトコルを標準化することにより、Colosseum V2は再現性と公正な比較を可能にし、評価オーバーヘッドを低減し、汎用ロボットポリシーへの進歩を加速する。
関連論文リスト
- Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization [65.37179698521766]
VLA(Vision-Language-Action)モデルは、ジェネラリストロボットの制御を強く約束する。
標準的な「スケールデータ」レシピがロボット工学に翻訳されるかどうかはまだ不明だ。
本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
論文 参考訳(メタデータ) (2026-02-10T12:25:43Z) - LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation [46.970355660265284]
VLA(Vision-Language-Action)モデルは、自然言語で記述されたタスクをロボットが理解し実行できるようにするモデルである。
重要な課題は、訓練された特定の環境や条件を超えて一般化できることです。
本稿では,VLAモデルの一般化能力を評価するための新しいシミュレーション環境とベンチマークであるREALMを提案する。
論文 参考訳(メタデータ) (2025-12-22T16:44:23Z) - HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models [5.660635614478238]
VLA(Vision-Language-Action)モデルは、汎用的で汎用的なロボットポリシーを作成することを約束する。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語命令,視覚,オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクの統合スイートを導入する。
論文 参考訳(メタデータ) (2025-06-11T16:52:18Z) - RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [59.9896841079005]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping [18.410329897882658]
汎用ロボットは任意のシナリオで多様な物体を把握できなければならない。
DexGraspVLAは,言語誘導型汎用デキスタラスグルーピングにおける堅牢な一般化のための階層的フレームワークである。
論文 参考訳(メタデータ) (2025-02-28T09:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。