論文の概要: RoboEval: Where Robotic Manipulation Meets Structured and Scalable Evaluation
- arxiv url: http://arxiv.org/abs/2507.00435v1
- Date: Tue, 01 Jul 2025 05:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.345129
- Title: RoboEval: Where Robotic Manipulation Meets Structured and Scalable Evaluation
- Title(参考訳): RoboEval: ロボットマニピュレーションが構造化されたスケーラブルな評価に遭遇する
- Authors: Yi Ru Wang, Carter Ung, Grant Tannert, Jiafei Duan, Josephine Li, Amy Le, Rishabh Oswal, Markus Grotz, Wilbert Pumacay, Yuquan Deng, Ranjay Krishna, Dieter Fox, Siddhartha Srinivasa,
- Abstract要約: 本稿では,現在の双方向操作ポリシーの限界を明らかにするために,シミュレーションベンチマークと構造化評価フレームワークであるRoboEvalを提案する。
RoboEvalは、空間、物理的、コーディネート機能に体系的に挑戦する、階層化されたセマンティックな基礎付けられた一連のタスクを導入した。
行動メトリクスは、タスクメトリックペアの半数以上の成功と相関し、バイナリ成功が飽和しても情報的であり続ける。
- 参考スコア(独自算出の注目度): 32.080769025457926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present RoboEval, a simulation benchmark and structured evaluation framework designed to reveal the limitations of current bimanual manipulation policies. While prior benchmarks report only binary task success, we show that such metrics often conceal critical weaknesses in policy behavior -- such as poor coordination, slipping during grasping, or asymmetric arm usage. RoboEval introduces a suite of tiered, semantically grounded tasks decomposed into skill-specific stages, with variations that systematically challenge spatial, physical, and coordination capabilities. Tasks are paired with fine-grained diagnostic metrics and 3000+ human demonstrations to support imitation learning. Our experiments reveal that policies with similar success rates diverge in how tasks are executed -- some struggle with alignment, others with temporally consistent bimanual control. We find that behavioral metrics correlate with success in over half of task-metric pairs, and remain informative even when binary success saturates. By pinpointing when and how policies fail, RoboEval enables a deeper, more actionable understanding of robotic manipulation -- and highlights the need for evaluation tools that go beyond success alone.
- Abstract(参考訳): 本稿では,現在の双方向操作ポリシーの限界を明らかにするために,シミュレーションベンチマークと構造化評価フレームワークであるRoboEvalを提案する。
以前のベンチマークではバイナリタスクの成功しか報告されていないが、これらの指標は、コーディネーションの貧弱さ、把握中の滑り、非対称なアームの使用など、政策行動の重大な弱点を隠蔽することが多い。
RoboEvalは、一連のタイアップされたセマンティックグラウンドのタスクをスキル固有のステージに分解し、空間、物理的、調整能力に体系的に挑戦するバリエーションを導入している。
タスクは、詳細な診断メトリクスと3000以上の人間のデモと組み合わせて、模倣学習をサポートする。
私たちの実験では、同様の成功率のポリシがタスクの実行方法に分散していることが明らかになりました。
行動メトリクスは、タスクメトリックペアの半数以上の成功と相関し、バイナリ成功が飽和しても情報的であり続ける。
RoboEvalは、いつ、どのようにポリシーが失敗するかを見極めることで、ロボット操作のより深く、より実用的な理解を可能にします。
関連論文リスト
- BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文 参考訳(メタデータ) (2024-06-14T14:49:12Z) - Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。
NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-02T15:08:35Z) - Stabilize to Act: Learning to Coordinate for Bimanual Manipulation [24.453468143697723]
本稿では,バイマニュアルロボットシステムのための新しい役割割り当てフレームワークを提案する。
安定アームは、動作アームがタスクを実行する間、環境を簡素化するためにオブジェクトを所定の位置に保持する。
安定化(BUDS)からのBimanUal Dexterityを用いて、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2023-09-03T05:56:21Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。