Fugu-MT 論文翻訳(概要): RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation

論文の概要: RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation

arxiv url: http://arxiv.org/abs/2510.23571v1
Date: Mon, 27 Oct 2025 17:41:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-28 15:28:15.648121
Title: RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation
Title（参考訳）: RobotArena $\infty$: リアルタイム翻訳によるスケーラブルなロボットベンチマーク
Authors: Yash Jangir, Yidi Zhang, Kashu Yamazaki, Chenyu Zhang, Kuan-Hsun Tu, Tsung-Wei Ke, Lei Ke, Yonatan Bisk, Katerina Fragkiadaki,
Abstract要約: 操作ポリシーの現実的なテストは、大規模に労働集約的で、再現が難しい。既存のシミュレーションベンチマークも同様に制限されており、同じ合成ドメイン内でポリシーをトレーニングおよびテストしている。本稿では,VLA評価を大規模にシミュレーションした拡張環境に移行することで,これらの課題を克服する新しいベンチマークフレームワークを提案する。
参考スコア（独自算出の注目度）: 47.79800816696372
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The pursuit of robot generalists - instructable agents capable of performing diverse tasks across diverse environments - demands rigorous and scalable evaluation. Yet real-world testing of robot policies remains fundamentally constrained: it is labor-intensive, slow, unsafe at scale, and difficult to reproduce. Existing simulation benchmarks are similarly limited, as they train and test policies within the same synthetic domains and cannot assess models trained from real-world demonstrations or alternative simulation environments. As policies expand in scope and complexity, these barriers only intensify, since defining "success" in robotics often hinges on nuanced human judgments of execution quality. In this paper, we introduce a new benchmarking framework that overcomes these challenges by shifting VLA evaluation into large-scale simulated environments augmented with online human feedback. Leveraging advances in vision-language models, 2D-to-3D generative modeling, and differentiable rendering, our approach automatically converts video demonstrations from widely used robot datasets into simulated counterparts. Within these digital twins, we assess VLA policies using both automated VLM-guided scoring and scalable human preference judgments collected from crowdworkers, transforming human involvement from tedious scene setup, resetting, and safety supervision into lightweight preference comparisons. To measure robustness, we systematically perturb simulated environments along multiple axes, such as textures and object placements, stress-testing policy generalization under controlled variation. The result is a continuously evolving, reproducible, and scalable benchmark for real-world trained robot manipulation policies, addressing a critical missing capability in today's robotics landscape.
Abstract（参考訳）: ロボットジェネラリストの追求 - 多様な環境にまたがって多様なタスクを実行できる教育可能なエージェント - は厳格でスケーラブルな評価を要求する。しかし、実際のロボットポリシーのテストは、労働集約的で、遅く、大規模で安全ではないため、基本的に制限されている。既存のシミュレーションベンチマークも同様に制限されており、同じ合成ドメイン内でポリシーをトレーニングおよびテストし、現実世界のデモンストレーションや代替シミュレーション環境からトレーニングされたモデルを評価することはできない。ポリシーがスコープと複雑さを拡大するにつれて、これらの障壁は、ロボット工学における「成功」の定義が、実行品質の微妙な人間の判断に依存しているため、強化されるのみである。本稿では,VLA評価をオンラインフィードバックを付加した大規模シミュレーション環境に移行することで,これらの課題を克服する新しいベンチマークフレームワークを提案する。視覚言語モデル, 2D-to-3D生成モデル, 微分レンダリングの進歩を活用して, 広範に使用されているロボットデータセットから映像のデモを自動的にシミュレートする手法を提案する。これらのデジタル双生児の中では,VLMによる自動スコアリングと,クラウドワーカーから収集したスケーラブルな人間の嗜好判断の両方を用いてVLAポリシーを評価し,退屈なシーン設定,リセット,安全管理を軽量な選好比較に変換する。頑健性を測定するため, 制御された変動条件下で, テクスチャや物体配置, ストレステストポリシの一般化など, 複数の軸に沿った環境をシミュレートした。その結果は、現実世界で訓練されたロボット操作ポリシーの継続的な進化、再現可能、スケーラブルなベンチマークであり、今日のロボティクスのランドスケープで欠如している機能に対処する。

関連論文リスト

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping [66.22412592525369]
本稿では,ガウスのSplat表現を生かした実--sim-to-realエンジンを導入し,実-sim-to-realエンジンについて述べる。提案エンジンは, 各種物体の形状と質量値のマス識別において, 高精度かつロバストな性能を実現していることを示す。これらの最適化された質量値は、力覚的なポリシー学習を促進し、オブジェクトの把握において優れた、高いパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-03-01T15:32:04Z)
Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文参考訳（メタデータ） (2026-01-13T23:36:30Z)
PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies [88.78188489161028]
シミュレーションにおける政策評価と環境復元(PolaRiS)の導入 PolaRiSは、高忠実度シミュレーションロボット評価のためのスケーラブルなリアルタイム・シミュレート・フレームワークである。 PolaRiSの評価は,既存のシミュレーションベンチマークよりも,現実のジェネラリストのポリシー性能に強い相関関係があることが示されている。
論文参考訳（メタデータ） (2025-12-18T18:49:41Z)
Evaluating Gemini Robotics Policies in a Veo World Simulator [69.23071832313246]
我々はフロンティアビデオ基盤モデル(Veo)に基づく生成的評価システムを導入する。このシステムは、ロボットアクションコンディショニングとマルチビュー一貫性をサポートするよう最適化されている。我々は、Gemini Roboticsのポリシーチェックポイント8つと、バイマニュアルマニピュレータのための5つのタスクの1600以上の実世界の評価を通じて、これらの能力を検証した。
論文参考訳（メタデータ） (2025-12-11T14:22:14Z)
Real-to-Sim Robot Policy Evaluation with Gaussian Splatting Simulation of Soft-Body Interactions [27.247431258140463]
本稿では,現実の映像からソフトボディのディジタルツインを構築するための,リアル・トゥ・シミュレート・ポリシー評価フレームワークを提案する。我々は,ぬいぐるみのパッキング,ロープルーティング,Tブロックプッシュなど,代表的な変形可能な操作タスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-11-06T18:52:08Z)
WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。 We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文参考訳（メタデータ） (2025-05-31T15:51:56Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance [15.774237279917594]
本稿では,ロボットによる自己指導と自己改善のためのエージェントフレームワークを提案する。本フレームワークは,環境中の関連オブジェクトに対して,ベースロボットポリシーを反復的に適用する。弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文参考訳（メタデータ） (2024-10-09T02:00:37Z)
Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。シミュレーション環境の集合体であるSIMPLERを作成した。
論文参考訳（メタデータ） (2024-05-09T17:30:16Z)
Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文参考訳（メタデータ） (2023-07-28T05:47:24Z)
Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文参考訳（メタデータ） (2021-11-15T18:50:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。