論文の概要: RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation
- arxiv url: http://arxiv.org/abs/2510.23571v1
- Date: Mon, 27 Oct 2025 17:41:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.648121
- Title: RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation
- Title(参考訳): RobotArena $\infty$: リアルタイム翻訳によるスケーラブルなロボットベンチマーク
- Authors: Yash Jangir, Yidi Zhang, Kashu Yamazaki, Chenyu Zhang, Kuan-Hsun Tu, Tsung-Wei Ke, Lei Ke, Yonatan Bisk, Katerina Fragkiadaki,
- Abstract要約: 操作ポリシーの現実的なテストは、大規模に労働集約的で、再現が難しい。
既存のシミュレーションベンチマークも同様に制限されており、同じ合成ドメイン内でポリシーをトレーニングおよびテストしている。
本稿では,VLA評価を大規模にシミュレーションした拡張環境に移行することで,これらの課題を克服する新しいベンチマークフレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.79800816696372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pursuit of robot generalists - instructable agents capable of performing diverse tasks across diverse environments - demands rigorous and scalable evaluation. Yet real-world testing of robot policies remains fundamentally constrained: it is labor-intensive, slow, unsafe at scale, and difficult to reproduce. Existing simulation benchmarks are similarly limited, as they train and test policies within the same synthetic domains and cannot assess models trained from real-world demonstrations or alternative simulation environments. As policies expand in scope and complexity, these barriers only intensify, since defining "success" in robotics often hinges on nuanced human judgments of execution quality. In this paper, we introduce a new benchmarking framework that overcomes these challenges by shifting VLA evaluation into large-scale simulated environments augmented with online human feedback. Leveraging advances in vision-language models, 2D-to-3D generative modeling, and differentiable rendering, our approach automatically converts video demonstrations from widely used robot datasets into simulated counterparts. Within these digital twins, we assess VLA policies using both automated VLM-guided scoring and scalable human preference judgments collected from crowdworkers, transforming human involvement from tedious scene setup, resetting, and safety supervision into lightweight preference comparisons. To measure robustness, we systematically perturb simulated environments along multiple axes, such as textures and object placements, stress-testing policy generalization under controlled variation. The result is a continuously evolving, reproducible, and scalable benchmark for real-world trained robot manipulation policies, addressing a critical missing capability in today's robotics landscape.
- Abstract(参考訳): ロボットジェネラリストの追求 - 多様な環境にまたがって多様なタスクを実行できる教育可能なエージェント - は厳格でスケーラブルな評価を要求する。
しかし、実際のロボットポリシーのテストは、労働集約的で、遅く、大規模で安全ではないため、基本的に制限されている。
既存のシミュレーションベンチマークも同様に制限されており、同じ合成ドメイン内でポリシーをトレーニングおよびテストし、現実世界のデモンストレーションや代替シミュレーション環境からトレーニングされたモデルを評価することはできない。
ポリシーがスコープと複雑さを拡大するにつれて、これらの障壁は、ロボット工学における「成功」の定義が、実行品質の微妙な人間の判断に依存しているため、強化されるのみである。
本稿では,VLA評価をオンラインフィードバックを付加した大規模シミュレーション環境に移行することで,これらの課題を克服する新しいベンチマークフレームワークを提案する。
視覚言語モデル, 2D-to-3D生成モデル, 微分レンダリングの進歩を活用して, 広範に使用されているロボットデータセットから映像のデモを自動的にシミュレートする手法を提案する。
これらのデジタル双生児の中では,VLMによる自動スコアリングと,クラウドワーカーから収集したスケーラブルな人間の嗜好判断の両方を用いてVLAポリシーを評価し,退屈なシーン設定,リセット,安全管理を軽量な選好比較に変換する。
頑健性を測定するため, 制御された変動条件下で, テクスチャや物体配置, ストレステストポリシの一般化など, 複数の軸に沿った環境をシミュレートした。
その結果は、現実世界で訓練されたロボット操作ポリシーの継続的な進化、再現可能、スケーラブルなベンチマークであり、今日のロボティクスのランドスケープで欠如している機能に対処する。
関連論文リスト
- WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文 参考訳(メタデータ) (2025-05-31T15:51:56Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance [15.774237279917594]
本稿では,ロボットによる自己指導と自己改善のためのエージェントフレームワークを提案する。
本フレームワークは,環境中の関連オブジェクトに対して,ベースロボットポリシーを反復的に適用する。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。