論文の概要: PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies
- arxiv url: http://arxiv.org/abs/2512.16881v1
- Date: Thu, 18 Dec 2025 18:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.226361
- Title: PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies
- Title(参考訳): PolaRiS: 汎用ロボットポリシーのスケーラブルなリアルタイム評価
- Authors: Arhan Jain, Mingtong Zhang, Kanav Arora, William Chen, Marcel Torne, Muhammad Zubair Irshad, Sergey Zakharov, Yue Wang, Sergey Levine, Chelsea Finn, Wei-Chiu Ma, Dhruv Shah, Abhishek Gupta, Karl Pertsch,
- Abstract要約: シミュレーションにおける政策評価と環境復元(PolaRiS)の導入
PolaRiSは、高忠実度シミュレーションロボット評価のためのスケーラブルなリアルタイム・シミュレート・フレームワークである。
PolaRiSの評価は,既存のシミュレーションベンチマークよりも,現実のジェネラリストのポリシー性能に強い相関関係があることが示されている。
- 参考スコア(独自算出の注目度): 88.78188489161028
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: A significant challenge for robot learning research is our ability to accurately measure and compare the performance of robot policies. Benchmarking in robotics is historically challenging due to the stochasticity, reproducibility, and time-consuming nature of real-world rollouts. This challenge is exacerbated for recent generalist policies, which has to be evaluated across a wide variety of scenes and tasks. Evaluation in simulation offers a scalable complement to real world evaluations, but the visual and physical domain gap between existing simulation benchmarks and the real world has made them an unreliable signal for policy improvement. Furthermore, building realistic and diverse simulated environments has traditionally required significant human effort and expertise. To bridge the gap, we introduce Policy Evaluation and Environment Reconstruction in Simulation (PolaRiS), a scalable real-to-sim framework for high-fidelity simulated robot evaluation. PolaRiS utilizes neural reconstruction methods to turn short video scans of real-world scenes into interactive simulation environments. Additionally, we develop a simple simulation data co-training recipe that bridges remaining real-to-sim gaps and enables zero-shot evaluation in unseen simulation environments. Through extensive paired evaluations between simulation and the real world, we demonstrate that PolaRiS evaluations provide a much stronger correlation to real world generalist policy performance than existing simulated benchmarks. Its simplicity also enables rapid creation of diverse simulated environments. As such, this work takes a step towards distributed and democratized evaluation for the next generation of robotic foundation models.
- Abstract(参考訳): ロボット学習研究において重要な課題は、ロボットポリシーの性能を正確に測定し比較する能力である。
ロボット工学におけるベンチマークは、現実のロールアウトの確率性、再現性、時間のかかる性質のために歴史的に困難である。
この課題は、様々な場面やタスクで評価されなければならない最近のジェネラリストの政策にとって、さらに悪化している。
シミュレーションにおける評価は、実世界の評価をスケーラブルに補完するが、既存のシミュレーションベンチマークと実世界の視覚的および物理的領域のギャップは、政策改善のための信頼性の低いシグナルとなっている。
さらに、現実的で多様なシミュレートされた環境を構築するには、伝統的にかなりの人的努力と専門知識が必要である。
このギャップを埋めるために、我々は、高忠実性シミュレーションロボット評価のためのスケーラブルなリアルタイム・シミュレーション・フレームワークであるPolaRiS(PolaRiS)を紹介した。
PolaRiSはニューラルネットワークを用いて、現実世界のシーンの短いビデオスキャンをインタラクティブなシミュレーション環境に変換する。
さらに,実空間と模擬空間を橋渡しし,未知のシミュレーション環境におけるゼロショット評価を可能にする簡易なシミュレーションデータ協調学習法を開発した。
シミュレーションと実世界の大規模なペア評価を通じて、PolaRiS評価が既存のシミュレーションベンチマークよりも現実のジェネラリストの政策性能とずっと強い相関関係があることを実証する。
その単純さは、多様なシミュレートされた環境を迅速に作成することを可能にする。
そこで本研究は,次世代ロボット基礎モデルの分散・民主化評価に向けた一歩を踏み出した。
関連論文リスト
- Real-to-Sim Robot Policy Evaluation with Gaussian Splatting Simulation of Soft-Body Interactions [27.247431258140463]
本稿では,現実の映像からソフトボディのディジタルツインを構築するための,リアル・トゥ・シミュレート・ポリシー評価フレームワークを提案する。
我々は,ぬいぐるみのパッキング,ロープルーティング,Tブロックプッシュなど,代表的な変形可能な操作タスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-11-06T18:52:08Z) - RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation [47.79800816696372]
操作ポリシーの現実的なテストは、大規模に労働集約的で、再現が難しい。
既存のシミュレーションベンチマークも同様に制限されており、同じ合成ドメイン内でポリシーをトレーニングおよびテストしている。
本稿では,VLA評価を大規模にシミュレーションした拡張環境に移行することで,これらの課題を克服する新しいベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T17:41:38Z) - Reliable and Scalable Robot Policy Evaluation with Imperfect Simulators [9.868826622074899]
SureSimは、比較的小さな実世界のテストで大規模なシミュレーションを強化するためのフレームワークである。
我々は,非漸近平均推定アルゴリズムを利用して,平均政策性能に対する信頼区間を提供する。
当社のアプローチは,同様のポリシ性能の限界を達成するため,ハードウェア評価作業の20~25%以上を節約する。
論文 参考訳(メタデータ) (2025-10-05T20:37:53Z) - YuLan-OneSim: Towards the Next Generation of Social Simulator with Large Language Models [50.35333054932747]
本稿では,YuLan-OneSimというソーシャルシミュレータを紹介する。
ユーザは、シミュレータとの自然言語インタラクションを通じて、シミュレーションシナリオを記述し、洗練することができます。
我々は、経済学、社会学、政治、心理学、組織、人口統計学、法律、コミュニケーションを含む8つの領域にまたがる50のデフォルトシミュレーションシナリオを実装した。
論文 参考訳(メタデータ) (2025-05-12T14:05:17Z) - An Real-Sim-Real (RSR) Loop Framework for Generalizable Robotic Policy Transfer with Differentiable Simulation [13.15220962477623]
本稿では,シミュレーションと実環境のギャップを解消する新しいリアルタイムループフレームワークを提案する。
我々の研究の重要な貢献は、多様で代表的な実世界のデータの収集を促進する情報的コスト関数の設計である。
我々のアプローチは多機能なMJXプラットフォーム上で実装されており、我々のフレームワークは幅広いロボットシステムと互換性がある。
論文 参考訳(メタデータ) (2025-03-13T07:27:05Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。