論文の概要: RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies
- arxiv url: http://arxiv.org/abs/2506.18123v1
- Date: Sun, 22 Jun 2025 18:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.760504
- Title: RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies
- Title(参考訳): RoboArena: 汎用ロボット政策の分散実世界評価
- Authors: Pranav Atreya, Karl Pertsch, Tony Lee, Moo Jin Kim, Arhan Jain, Artur Kuramshin, Clemens Eppner, Cyrus Neary, Edward Hu, Fabio Ramos, Jonathan Tremblay, Kanav Arora, Kirsty Ellis, Luca Macesanu, Matthew Leonard, Meedeum Cho, Ozgur Aslan, Shivin Dass, Jie Wang, Xingfang Yuan, Xuning Yang, Abhishek Gupta, Dinesh Jayaraman, Glen Berseth, Kostas Daniilidis, Roberto Martin-Martin, Youngwoon Lee, Percy Liang, Chelsea Finn, Sergey Levine,
- Abstract要約: 本稿では,実世界における汎用ロボットポリシーのスケーラブルな評価手法であるRoboArenaを提案する。
固定タスク,環境,場所に関する評価を標準化する代わりに,評価者の分散ネットワークにまたがるクラウドソース評価を提案する。
我々は、DROIDロボットプラットフォームを用いて、7つの学術機関における評価者のネットワークにアプローチをインスタンス化する。
- 参考スコア(独自算出の注目度): 125.35572632340602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comprehensive, unbiased, and comparable evaluation of modern generalist policies is uniquely challenging: existing approaches for robot benchmarking typically rely on heavy standardization, either by specifying fixed evaluation tasks and environments, or by hosting centralized ''robot challenges'', and do not readily scale to evaluating generalist policies across a broad range of tasks and environments. In this work, we propose RoboArena, a new approach for scalable evaluation of generalist robot policies in the real world. Instead of standardizing evaluations around fixed tasks, environments, or locations, we propose to crowd-source evaluations across a distributed network of evaluators. Importantly, evaluators can freely choose the tasks and environments they evaluate on, enabling easy scaling of diversity, but they are required to perform double-blind evaluations over pairs of policies. Then, by aggregating preference feedback from pairwise comparisons across diverse tasks and environments, we can derive a ranking of policies. We instantiate our approach across a network of evaluators at seven academic institutions using the DROID robot platform. Through more than 600 pairwise real-robot evaluation episodes across seven generalist policies, we demonstrate that our crowd-sourced approach can more accurately rank the performance of existing generalist policies than conventional, centralized evaluation approaches, while being more scalable, resilient, and trustworthy. We open our evaluation network to the community and hope that it can enable more accessible comparisons of generalist robot policies.
- Abstract(参考訳): ロボットベンチマークの既存のアプローチは、通常、固定された評価タスクと環境を指定するか、集中型の'ロボットチャレンジ'をホストするか、広範囲のタスクと環境にまたがってジェネラリストポリシーを評価するために容易にスケールできないような、重い標準化に依存している。
本研究では,実世界における汎用ロボットポリシーのスケーラブルな評価手法であるRoboArenaを提案する。
固定タスクや環境,場所に関する評価を標準化する代わりに,評価者の分散ネットワークにまたがるクラウドソース評価を提案する。
重要なことは、評価者は評価対象のタスクや環境を自由に選択でき、多様性のスケーリングが容易になる。
そして、様々なタスクと環境のペアワイズ比較から好みのフィードバックを集約することで、ポリシーのランク付けを導き出すことができる。
我々は、DROIDロボットプラットフォームを用いて、7つの学術機関における評価者のネットワークにアプローチをインスタンス化する。
7つのジェネラリスト政策をまたいだ600以上のペアワイズ実ロボット評価エピソードを通じて、我々のクラウドソースアプローチは、従来型の集中型評価アプローチよりも、既存のジェネラリストポリシーのパフォーマンスをより正確にランク付けし、よりスケーラブルで弾力性があり、信頼性が高いことを実証する。
我々は、評価ネットワークをコミュニティに開放し、汎用ロボットポリシーのよりアクセスしやすい比較を可能にすることを期待する。
関連論文リスト
- AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World [45.70178627573973]
AutoEvalは、人間の介入を最小限に抑えて、時計周りのロボットポリシーを自律的に評価するシステムだ。
評価プロセスにおいて,AutoEvalは人間の関与をほぼ完全に排除できることを示す。
We provide public access to multiple AutoEval scene in the popular BridgeData robot set with WidowX robot arms。
論文 参考訳(メタデータ) (2025-03-31T16:23:44Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation [17.638831964639834]
行動クローニングポリシーは、人間のデモンストレーションから学ぶことで複雑なタスクを解決することに成功している。
本稿では,任意の環境下でのロボット性能について,より低バウンドなフレームワークを提案する。
実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。
論文 参考訳(メタデータ) (2024-05-08T22:00:35Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。