論文の概要: vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.13966v1
- Date: Sat, 14 Mar 2026 14:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.51476
- Title: vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models
- Title(参考訳): vla-eval:ビジョン・ランゲージ・アクションモデルのための統一評価ハーネス
- Authors: Suhwan Choi, Yunsung Lee, Yubeen Park, Chris Dongjoo Kim, Ranjay Krishna, Dieter Fox, Youngjae Yu,
- Abstract要約: VLAモデルは一般的に、各モデルリポジトリによって独立して維持されるベンチマークスクリプト毎に評価される。
本稿では、ベンチマーク実行からモデル推論を分離するオープンソースの評価ハーネスであるvla evalを紹介する。
完全な評価では、vla eval serveとvla eval runの2つのコマンドしか必要としない。
- 参考スコア(独自算出の注目度): 58.633451339058986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Action VLA models are typically evaluated using per benchmark scripts maintained independently by each model repository, leading to duplicated code, dependency conflicts, and underspecified protocols. We present vla eval, an open source evaluation harness that decouples model inference from benchmark execution through a WebSocket msgpack protocol with Docker based environment isolation. Models integrate once by implementing a single predict() method; benchmarks integrate once via a four method interface; the full cross evaluation matrix works automatically. A complete evaluation requires only two commands: vla eval serve and vla eval run. The framework supports 13 simulation benchmarks and six model servers. Parallel evaluation via episode sharding and batch inference achieves a 47x throughput improvement, completing 2000 LIBERO episodes in about 18 minutes. Using this infrastructure, we conduct a reproducibility audit of a published VLA model across three benchmarks, finding that all three closely reproduce published values while uncovering undocumented requirements ambiguous termination semantics and hidden normalization statistics that can silently distort results. We additionally release a VLA leaderboard aggregating 657 published results across 17 benchmarks. Framework, evaluation configs, and all reproduction results are publicly available.
- Abstract(参考訳): ビジョン言語 アクション VLAモデルは一般的に、各モデルリポジトリによって独立して維持されるベンチマークスクリプトを使用して評価される。
私たちは、Dockerベースの環境分離を備えたWebSocket msgpackプロトコルを通じて、ベンチマーク実行からモデル推論を分離する、オープンソースの評価ハーネスであるvla evalを紹介します。
モデルは単一の predict() メソッドを実装することで一度統合され、ベンチマークは4つのメソッドインターフェースを介して一度統合される。
完全な評価では、vla eval serveとvla eval runの2つのコマンドしか必要としない。
このフレームワークは13のシミュレーションベンチマークと6つのモデルサーバをサポートしている。
エピソードシャーディングとバッチ推論による並列評価は、47倍のスループット向上を実現し、約18分で2000個のLIBEROエピソードを完了した。
このインフラを用いて、3つのベンチマークで公表されたVLAモデルの再現性監査を行い、文書化されていない要求の曖昧な終了セマンティクスと、結果を静かに歪ませることのできる隠れ正規化統計を明らかにする。
さらに、VLAのリーダーボードが17ベンチマークで657件の結果を収集しています。
フレームワーク、評価設定、およびすべての再生結果が公開されている。
関連論文リスト
- The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality [70.45240108873001]
FACTS Leaderboardは、実際に正確なテキストを生成する言語モデルの能力を総合的に評価するオンラインのリーダーボードスイートである。
このスイートは、4つの異なるサブリーダーボード上でのモデルのパフォーマンスを集約することで、事実性の総合的な尺度を提供する。
論文 参考訳(メタデータ) (2025-12-11T16:35:14Z) - fev-bench: A Realistic Benchmark for Time Series Forecasting [19.931138737002215]
既存のベンチマークでは、ドメインカバレッジが狭くなったり、重要な現実世界の設定を見落としたりすることが多い。
7つの領域にわたる100の予測タスクからなるベンチマークであるfevbenchを提案する。
fev-benchでは、モデルパフォーマンスを報告するために、ブートストラップされた信頼区間を持つ原則化された集約手法を採用している。
論文 参考訳(メタデータ) (2025-09-30T16:17:18Z) - A Third Paradigm for LLM Evaluation: Dialogue Game-Based Evaluation using clembench [18.149327897427234]
2023年から継続的開発が続けられているClembenchについて紹介する。
我々は、それが自身のモデル(英語で提供されるベンチマークゲームインスタンスのセットを使用して)のベンチマークにどのように使用できるかを説明する。
論文 参考訳(メタデータ) (2025-07-11T11:16:01Z) - SummExecEdit: A Factual Consistency Benchmark in Summarization with Executable Edits [31.98028879922584]
SummExecEditという新しいパイプラインとベンチマークを導入し、実際のエラーを検知し、正確な説明を提供する能力についてモデルを評価する。
トップパフォーマンスモデルであるClaude3-Opusは、ベンチマークでわずか0.49のジョイント検出と説明スコアを達成している。
説明ミスの4つの主要なタイプを特定し、その45.4%は、要約の完全に無関係な部分に焦点を当てている。
論文 参考訳(メタデータ) (2024-12-17T23:26:44Z) - VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation [16.889939234103153]
本稿では,ベンチマークをバリビライズし,動的に言語モデルを評価することを提案する。
具体的には、各テストケースから変数を抽出し、各変数の値範囲を定義する。
それぞれの評価のために、これらの値から新しい値をサンプリングし、ユニークなテストケースを作成します。
論文 参考訳(メタデータ) (2024-06-25T16:13:53Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - COLO: A Contrastive Learning based Re-ranking Framework for One-Stage
Summarization [84.70895015194188]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。
COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文 参考訳(メタデータ) (2022-09-29T06:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。