論文の概要: RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies
- arxiv url: http://arxiv.org/abs/2604.09860v2
- Date: Tue, 14 Apr 2026 23:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.364933
- Title: RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies
- Title(参考訳): RoboLab:タスクジェネリストポリシーの分析のための高忠実度シミュレーションベンチマーク
- Authors: Xuning Yang, Rishit Dagli, Alex Zook, Hugo Hadfield, Ankit Goyal, Stan Birchfield, Fabio Ramos, Jonathan Tremblay,
- Abstract要約: 既存のベンチマークでは、トレーニングと評価の間に大きなドメインオーバーラップが見られる。
これらの課題に対処するために設計されたシミュレーションベンチマークフレームワークであるRoboLabを紹介します。
詳細なメトリクスとスケーラブルなツールセットを提供することで、RoboLabはタスクジェネリストロボットポリシーの真の一般化能力を評価するためのスケーラブルなフレームワークを提供する。
- 参考スコア(独自算出の注目度): 20.899640428403377
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The pursuit of general-purpose robotics has yielded impressive foundation models, yet simulation-based benchmarking remains a bottleneck due to rapid performance saturation and a lack of true generalization testing. Existing benchmarks often exhibit significant domain overlap between training and evaluation, trivializing success rates and obscuring insights into robustness. We introduce RoboLab, a simulation benchmarking framework designed to address these challenges. Concretely, our framework is designed to answer two questions: (1) to what extent can we understand the performance of a real-world policy by analyzing its behavior in simulation, and (2) which external factors most strongly affect that behavior under controlled perturbations. First, RoboLab enables human-authored and LLM-enabled generation of scenes and tasks in a robot- and policy-agnostic manner within a physically realistic and photorealistic simulation. With this, we propose the RoboLab-120 benchmark, consisting of 120 tasks categorized into three competency axes: visual, procedural, relational competency, across three difficulty levels. Second, we introduce a systematic analysis of real-world policies that quantify both their performance and the sensitivity of their behavior to controlled perturbations, indicating that high-fidelity simulation can serve as a proxy for analyzing performance and its dependence on external factors. Evaluation with RoboLab exposes significant performance gap in current state-of-the-art models. By providing granular metrics and a scalable toolset, RoboLab offers a scalable framework for evaluating the true generalization capabilities of task-generalist robotic policies.
- Abstract(参考訳): 汎用ロボティクスの追求は、印象的な基礎モデルを生み出してきたが、シミュレーションベースのベンチマークは、急速な性能飽和と真の一般化テストの欠如によりボトルネックのままである。
既存のベンチマークは、トレーニングと評価の間に大きなドメインオーバーラップを示し、成功率を自明にし、堅牢性に対する洞察を隠蔽することが多い。
これらの課題に対処するために設計されたシミュレーションベンチマークフレームワークであるRoboLabを紹介します。
具体的には,(1)シミュレーションにおける行動分析によって現実の政策をどの程度理解できるか,(2)制御された摂動下での行動に最も強く影響を及ぼす外部要因の2つに答える。
まず、RoboLabは、物理的に現実的でフォトリアリスティックなシミュレーションの中で、ロボットとポリシーに依存しない方法で、人間によるLLM対応のシーンとタスクの生成を可能にする。
そこで我々は,120のタスクを3つの難易度(視覚,手続き,関係能力)に分類したRoboLab-120ベンチマークを提案する。
第2に、実世界の政策を体系的に分析し、その性能と行動の感度を制御された摂動に対する感度の両方を定量化し、高忠実度シミュレーションが性能と外部要因への依存を解析するためのプロキシとして機能することを示す。
RoboLabによる評価は、現在の最先端モデルの大幅なパフォーマンスギャップを明らかにしている。
詳細なメトリクスとスケーラブルなツールセットを提供することで、RoboLabはタスクジェネリストロボットポリシーの真の一般化能力を評価するためのスケーラブルなフレームワークを提供する。
関連論文リスト
- ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。
既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。
シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文 参考訳(メタデータ) (2026-03-30T15:06:41Z) - AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition [72.24180896265192]
本稿では,騒音環境下でのエージェントモデルのロバスト性を評価するためのフレームワークであるAgentNoiseBenchを紹介する。
まず、実世界のシナリオにおけるバイアスと不確実性の詳細な分析を行う。
次に,環境騒音をユーザノイズとツールノイズの2つの主要なタイプに分類する。
この分析に基づいて,既存のエージェント中心ベンチマークに制御可能なノイズを注入する自動パイプラインを開発した。
論文 参考訳(メタデータ) (2026-02-11T20:33:10Z) - EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation [46.970355660265284]
VLA(Vision-Language-Action)モデルは、自然言語で記述されたタスクをロボットが理解し実行できるようにするモデルである。
重要な課題は、訓練された特定の環境や条件を超えて一般化できることです。
本稿では,VLAモデルの一般化能力を評価するための新しいシミュレーション環境とベンチマークであるREALMを提案する。
論文 参考訳(メタデータ) (2025-12-22T16:44:23Z) - PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies [88.78188489161028]
シミュレーションにおける政策評価と環境復元(PolaRiS)の導入
PolaRiSは、高忠実度シミュレーションロボット評価のためのスケーラブルなリアルタイム・シミュレート・フレームワークである。
PolaRiSの評価は,既存のシミュレーションベンチマークよりも,現実のジェネラリストのポリシー性能に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2025-12-18T18:49:41Z) - Analyzing Planner Design Trade-offs for MAPF under Realistic Simulation [8.088161779831582]
現実的な実行環境下でのプランナー設計選択がパフォーマンスに与える影響について検討する。
私たちは、実践的で現実的なデプロイメントに向けてコミュニティを舵取りするためのオープンな課題と研究の方向性を強調します。
論文 参考訳(メタデータ) (2025-12-10T15:15:26Z) - RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation [47.79800816696372]
操作ポリシーの現実的なテストは、大規模に労働集約的で、再現が難しい。
既存のシミュレーションベンチマークも同様に制限されており、同じ合成ドメイン内でポリシーをトレーニングおよびテストしている。
本稿では,VLA評価を大規模にシミュレーションした拡張環境に移行することで,これらの課題を克服する新しいベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T17:41:38Z) - Reliable and Scalable Robot Policy Evaluation with Imperfect Simulators [9.868826622074899]
SureSimは、比較的小さな実世界のテストで大規模なシミュレーションを強化するためのフレームワークである。
我々は,非漸近平均推定アルゴリズムを利用して,平均政策性能に対する信頼区間を提供する。
当社のアプローチは,同様のポリシ性能の限界を達成するため,ハードウェア評価作業の20~25%以上を節約する。
論文 参考訳(メタデータ) (2025-10-05T20:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。