論文の概要: Static and Plugged: Make Embodied Evaluation Simple
- arxiv url: http://arxiv.org/abs/2508.06553v1
- Date: Wed, 06 Aug 2025 06:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.432453
- Title: Static and Plugged: Make Embodied Evaluation Simple
- Title(参考訳): Static and Plugged: 身体的評価をシンプルにする
- Authors: Jiahao Xiao, Jianbo Zhang, BoWen Yan, Shengyu Guo, Tongrui Ye, Kaiwei Zhang, Zicheng Zhang, Xiaohong Liu, Zhengxue Cheng, Lei Fan, Chuyi Li, Guangtao Zhai,
- Abstract要約: 身体的知性は急速に進歩し、効率的な評価の必要性が増している。
現在のベンチマークは通常、インタラクティブなシミュレートされた環境や現実世界のセットアップに依存している。
静的シーン表現を用いた統一評価を可能にするプラグイン・アンド・プレイベンチマークであるStaticEmbodiedBenchを紹介する。
- 参考スコア(独自算出の注目度): 34.41848646124736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied intelligence is advancing rapidly, driving the need for efficient evaluation. Current benchmarks typically rely on interactive simulated environments or real-world setups, which are costly, fragmented, and hard to scale. To address this, we introduce StaticEmbodiedBench, a plug-and-play benchmark that enables unified evaluation using static scene representations. Covering 42 diverse scenarios and 8 core dimensions, it supports scalable and comprehensive assessment through a simple interface. Furthermore, we evaluate 19 Vision-Language Models (VLMs) and 11 Vision-Language-Action models (VLAs), establishing the first unified static leaderboard for Embodied intelligence. Moreover, we release a subset of 200 samples from our benchmark to accelerate the development of embodied intelligence.
- Abstract(参考訳): 身体的知性は急速に進歩し、効率的な評価の必要性が増している。
現在のベンチマークは一般的に、インタラクティブなシミュレートされた環境や現実世界のセットアップに依存しています。
これを解決するために,静的シーン表現を用いた統一評価を可能にするプラグイン・アンド・プレイベンチマークであるStaticEmbodiedBenchを紹介する。
42の多様なシナリオと8つのコアディメンションをカバーし、シンプルなインターフェースを通じてスケーラブルで包括的なアセスメントをサポートする。
さらに、19個の視覚言語モデル(VLM)と11個の視覚言語モデル(VLA)を評価し、身体情報のための最初の統一された静的リーダーボードを確立する。
さらに,我々のベンチマークから200サンプルのサブセットをリリースし,インボディードインテリジェンスの開発を加速する。
関連論文リスト
- InternSpatial: A Comprehensive Dataset for Spatial Reasoning in Vision-Language Models [59.7084864920244]
InternSpatialは視覚言語モデル(VLM)における空間推論のための最大のオープンソースデータセットである
InternSpatialは、シングルビューとマルチビューの両方にまたがる1200万のQAペアで構成されている。
InternSpatial-Benchは、多様な命令形式で空間的理解を評価するために設計された評価ベンチマークである。
論文 参考訳(メタデータ) (2025-06-23T08:17:22Z) - Adapting Vision-Language Models for Evaluating World Models [24.813041196394582]
データおよび計算制約下でのシミュレーション環境におけるロールアウトに対する視覚言語評価手法であるUNIVERSEを提案する。
本研究では,タスク形式,コンテキスト長,サンプリング戦略,データ構成を網羅した,完全,部分的,パラメータ効率の微調整を大規模に検討する。
その結果得られた統合評価器は、単一のチェックポイントを使用してタスク固有のベースラインのパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2025-06-22T09:53:28Z) - BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs [3.239200269731315]
無人航空機(UAV)をベースとした身体エージェントは、自律的なタスクにおいて大きな可能性を秘めている。
UAV-EA(UAV-Embodied Agents)の現在の評価手法は、標準化されたベンチマークの欠如によって制限されている。
我々は,UAV-EAを評価するために設計された,体系的で標準化されたベンチマークであるBEDI(Benchmark for Embodied Drone Intelligence)を提案する。
論文 参考訳(メタデータ) (2025-05-23T12:14:00Z) - Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.6716697906318]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から, モデルが良好に機能することのないことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - VisIT-Bench: A Benchmark for Vision-Language Instruction Following
Inspired by Real-World Use [49.574651930395305]
VisIT-Benchは、命令追従型視覚言語モデルの評価のためのベンチマークである。
提案データセットは592個のテストクエリからなり,それぞれに人手による指示条件付きキャプションを付与した。
人的評価と自動評価の両方を用いて,モデルと参照間の品質ギャップを定量化する。
論文 参考訳(メタデータ) (2023-08-12T15:27:51Z) - Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。
まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。
本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文 参考訳(メタデータ) (2023-07-02T21:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。