論文の概要: AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World
- arxiv url: http://arxiv.org/abs/2503.24278v1
- Date: Mon, 31 Mar 2025 16:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:33:52.726451
- Title: AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World
- Title(参考訳): AutoEval: 現実の世界における汎用ロボット操作ポリシーの自律的評価
- Authors: Zhiyuan Zhou, Pranav Atreya, You Liang Tan, Karl Pertsch, Sergey Levine,
- Abstract要約: AutoEvalは、人間の介入を最小限に抑えて、時計周りのロボットポリシーを自律的に評価するシステムだ。
評価プロセスにおいて,AutoEvalは人間の関与をほぼ完全に排除できることを示す。
We provide public access to multiple AutoEval scene in the popular BridgeData robot set with WidowX robot arms。
- 参考スコア(独自算出の注目度): 45.70178627573973
- License:
- Abstract: Scalable and reproducible policy evaluation has been a long-standing challenge in robot learning. Evaluations are critical to assess progress and build better policies, but evaluation in the real world, especially at a scale that would provide statistically reliable results, is costly in terms of human time and hard to obtain. Evaluation of increasingly generalist robot policies requires an increasingly diverse repertoire of evaluation environments, making the evaluation bottleneck even more pronounced. To make real-world evaluation of robotic policies more practical, we propose AutoEval, a system to autonomously evaluate generalist robot policies around the clock with minimal human intervention. Users interact with AutoEval by submitting evaluation jobs to the AutoEval queue, much like how software jobs are submitted with a cluster scheduling system, and AutoEval will schedule the policies for evaluation within a framework supplying automatic success detection and automatic scene resets. We show that AutoEval can nearly fully eliminate human involvement in the evaluation process, permitting around the clock evaluations, and the evaluation results correspond closely to ground truth evaluations conducted by hand. To facilitate the evaluation of generalist policies in the robotics community, we provide public access to multiple AutoEval scenes in the popular BridgeData robot setup with WidowX robot arms. In the future, we hope that AutoEval scenes can be set up across institutions to form a diverse and distributed evaluation network.
- Abstract(参考訳): スケーラブルで再現可能なポリシ評価は、ロボット学習における長年にわたる課題である。
評価は進歩を評価し、より良い政策を構築するために重要であるが、実世界での評価、特に統計的に信頼できる結果を提供するスケールでは、人的時間と入手が困難である。
より一般的なロボットポリシーの評価は、ますます多様な評価環境のレパートリーを必要とし、評価ボトルネックをさらに顕著にする。
ロボットポリシーの現実的な評価をより現実的にするために,人間の介入を最小限に抑えながら時計まわりのジェネラリストロボットポリシーを自律的に評価するシステムであるAutoEvalを提案する。
ユーザはAutoEvalキューに評価ジョブを送信することでAutoEvalと対話する。クラスタスケジューリングシステムでソフトウェアジョブを送信する方法と同じように,AutoEvalは自動成功検出と自動シーンリセットを提供するフレームワーク内で評価のためのポリシをスケジュールする。
本稿では,オートエスバルが人による評価プロセスへの関与をほぼ完全に排除し,クロック評価の実施を許可し,評価結果が手作業による真理評価と密接に一致することを示す。
ロボットコミュニティにおけるジェネラリスト政策の評価を容易にするため,WidowXロボットアームを備えたBridgeDataロボットの複数のAutoEvalシーンへのパブリックアクセスを提供する。
将来的には、AutoEvalのシーンを組織全体に設定して、多様な分散評価ネットワークを構築したいと思っています。
関連論文リスト
- Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - Generalized Robot Learning Framework [10.03174544844559]
本稿では,様々なロボットや環境に容易に再現可能かつ伝達可能な,低コストなロボット学習フレームワークを提案する。
我々は,産業用ロボットにおいても,デプロイ可能な模倣学習をうまく適用できることを実証した。
論文 参考訳(メタデータ) (2024-09-18T15:34:31Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Autonomous and Human-Driven Vehicles Interacting in a Roundabout: A
Quantitative and Qualitative Evaluation [34.67306374722473]
我々は,イタリア・ミラノのラウンドアバウンドにおいて,交通渋滞を最小限に抑え,汚染を最小限に抑える政策を学ぶ。
最先端のコックピットを用いて学習方針を定性的に評価し,実世界に近い環境下での性能を評価する。
以上の結果から,ヒト駆動車両はAVの動態を最適化することの利点が示唆された。
論文 参考訳(メタデータ) (2023-09-15T09:02:16Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Crowdsourcing Evaluation of Saliency-based XAI Methods [18.18238526746074]
本稿では,クラウドソーシングによるXAI手法の評価手法を提案する。
我々の手法は人間の計算ゲーム「Peek-a-boom」にインスパイアされている。
自動評価と群集評価を併用した2つのデータセット上で,様々なXAI手法の精度マップを評価した。
論文 参考訳(メタデータ) (2021-06-27T17:37:53Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。