論文の概要: VLA-REPLICA: A Low-Cost, Reproducible Benchmark for Real-World Evaluation of Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.20774v1
- Date: Wed, 20 May 2026 06:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.519728
- Title: VLA-REPLICA: A Low-Cost, Reproducible Benchmark for Real-World Evaluation of Vision-Language-Action Models
- Title(参考訳): VLA-REPLICA:ビジョン・ランゲージ・アクション・モデルの実時間評価のための低コスト再現性ベンチマーク
- Authors: Alex S. Huang, Jiahui Zhang, Shiqing Tang, Yu Xiang,
- Abstract要約: VLA(Vision-Language-Action)モデルは汎用的なロボット操作に強く期待されている。
既存の実世界のベンチマークでは、高価なハードウェア、集中型評価、タスクの多様性に制限があることが多い。
本稿では,VLAモデルを評価するために,低コストで再現しやすい実世界のベンチマークであるVLA-REPLICAを紹介する。
- 参考スコア(独自算出の注目度): 16.62453347330552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have shown strong promise for general-purpose robotic manipulation, but their real-world evaluation remains limited by a lack of accessible, reproducible, and consistent benchmarks. Simulation benchmarks fail to capture real-world complexity, while existing real-world benchmarks often require expensive hardware, centralized evaluation, or are limited in task diversity. We introduce VLA-REPLICA, a low-cost, easily reproducible real-world benchmark for evaluating VLA models. Built from off-the-shelf components, our system can be quickly assembled and replicated across laboratories, providing a consistent environment for policy evaluation anywhere in the world. VLA-REPLICA includes a diverse suite of manipulation tasks and a small-scale demonstration dataset for target-domain adaptation, with real-world evaluation protocols for both in-distribution and out-of-distribution settings. Experiments with imitation learning and state-of-the-art VLA models reveal model strengths and limitations, while consistent results across independently constructed setups demonstrate the reproducibility of our benchmark.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、汎用的なロボット操作に強く期待されているが、実際の評価は、アクセス可能で再現可能で一貫したベンチマークの欠如によって制限されている。
シミュレーションベンチマークは現実の複雑さを捉えるのに失敗するが、既存の実世界のベンチマークでは高価なハードウェア、集中型評価、タスクの多様性に制限があることが多い。
本稿では,VLAモデルを評価するために,低コストで再現しやすい実世界のベンチマークであるVLA-REPLICAを紹介する。
既製の部品で構築された私たちのシステムは、実験室間で迅速に組み立て、複製することができ、世界中のどこでも政策評価のための一貫した環境を提供する。
VLA-REPLICAには、さまざまな操作タスクスイートと、ドメイン適応のための小規模のデモデータセット、および、配布内および配布外の両方の実際の評価プロトコルが含まれている。
模擬学習と最先端のVLAモデルを用いた実験では,モデル強度と限界が示され,独立に構築されたセットアップ間で一貫した結果がベンチマークの再現性を示す。
関連論文リスト
- Toward Visually Realistic Simulation: A Benchmark for Evaluating Robot Manipulation in Simulation [62.51953630639423]
既存のベンチマークには視覚的リアリズムがなく、シミュレーションと現実の間に大きな領域ギャップが生じる。
シミュレーションにおけるロボット操作評価のための,視覚的にリアルなベンチマークであるVISERを提案する。
VISERは、物理ベースのレンダリング(PBR)素材を備えた1000以上の3Dアセットの高忠実度データセットと、それらのアセットから作成される3Dシーンを、レイアウトや生成によって構成する。
論文 参考訳(メタデータ) (2026-05-07T14:13:05Z) - ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。
既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。
シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文 参考訳(メタデータ) (2026-03-30T15:06:41Z) - UniDial-EvalKit: A Unified Toolkit for Evaluating Multi-Faceted Conversational Abilities [70.79422099851506]
対話型AIシステム評価のための統合評価ツールキットUniDial-EvalKit(UDE)を提案する。
UDEは異種データフォーマットを普遍的なスキーマに標準化し、モジュールアーキテクチャを通じて複雑な評価パイプラインを合理化し、一貫したスコアリングインターフェースの下でメートル法計算を調整する。
論文 参考訳(メタデータ) (2026-03-24T13:01:31Z) - LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation [46.970355660265284]
VLA(Vision-Language-Action)モデルは、自然言語で記述されたタスクをロボットが理解し実行できるようにするモデルである。
重要な課題は、訓練された特定の環境や条件を超えて一般化できることです。
本稿では,VLAモデルの一般化能力を評価するための新しいシミュレーション環境とベンチマークであるREALMを提案する。
論文 参考訳(メタデータ) (2025-12-22T16:44:23Z) - VLNVerse: A Benchmark for Vision-Language Navigation with Versatile, Embodied, Realistic Simulation and Evaluation [61.82502719679122]
本稿では,Versatile, Embodied, Realistic Simulation, EvaluationのベンチマークであるVLNVerseを紹介する。
VLNVerseは、スケーラブルでフルスタックのAI問題としてVLNを再定義する。
ベンチマーク内の全てのタスクに対処できる新しいマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2025-12-22T04:27:26Z) - Adapting Vision-Language Models for Evaluating World Models [24.813041196394582]
データおよび計算制約下でのシミュレーション環境におけるロールアウトに対する視覚言語評価手法であるUNIVERSEを提案する。
本研究では,タスク形式,コンテキスト長,サンプリング戦略,データ構成を網羅した,完全,部分的,パラメータ効率の微調整を大規模に検討する。
その結果得られた統合評価器は、単一のチェックポイントを使用してタスク固有のベースラインのパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2025-06-22T09:53:28Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - On the Evaluation and Refinement of Vision-Language Instruction Tuning
Datasets [71.54954966652286]
VLIT(Vision-Language Instruction-Tuning)データセットの評価を試みる。
各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LIONを構築した。
注目すべきは、完全なデータの半分でなくても、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができることだ。
論文 参考訳(メタデータ) (2023-10-10T13:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。