論文の概要: Toward Visually Realistic Simulation: A Benchmark for Evaluating Robot Manipulation in Simulation
- arxiv url: http://arxiv.org/abs/2605.06311v1
- Date: Thu, 07 May 2026 14:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.881133
- Title: Toward Visually Realistic Simulation: A Benchmark for Evaluating Robot Manipulation in Simulation
- Title(参考訳): ビジュアル・リアリスティック・シミュレーションへ向けたロボットマニピュレーション評価ベンチマーク
- Authors: Yixin Zhu, Zixiong Wang, Jian Yang, Jin Xie, Jingyi Yu, Jiayuan Gu, Beibei Wang,
- Abstract要約: 既存のベンチマークには視覚的リアリズムがなく、シミュレーションと現実の間に大きな領域ギャップが生じる。
シミュレーションにおけるロボット操作評価のための,視覚的にリアルなベンチマークであるVISERを提案する。
VISERは、物理ベースのレンダリング(PBR)素材を備えた1000以上の3Dアセットの高忠実度データセットと、それらのアセットから作成される3Dシーンを、レイアウトや生成によって構成する。
- 参考スコア(独自算出の注目度): 62.51953630639423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable simulation evaluation of robot manipulation policies serves as a high-fidelity proxy for real-world performance. Although existing benchmarks cover a wide range of task categories, they lack visual realism, creating a large domain gap between simulation and reality. This undermines the reliability of simulation-based evaluation in predicting real-world performance. To mitigate the sim-to-real visual gap, we conduct a systematic analysis to isolate the effects of lighting and material. Our results show that these factors play a critical role in geometric reasoning and spatial grounding, yet are largely overlooked in existing benchmarks. Motivated by the analysis, we propose VISER, a visually realistic benchmark for evaluating robot manipulation in simulation. VISER features a high-fidelity dataset of over 1,000 3D assets with physically-based rendering (PBR) materials, along with 3D scenes created from these assets through curated layouts or generation. To this end, we propose an automated pipeline leveraging Multi-modal Large Language Models (MLLMs) for material-aware part segmentation and material retrieval, enabling scalable generation of physically plausible assets. Building on the high-fidelity 3D asset dataset, we construct diverse evaluation tasks, such as grasping, placing, and long-horizon tasks, enabling scalable and reproducible assessment of Vision-Language-Action (VLA) models. Our benchmark shows a strong correlation between simulation and real-world performance, achieving an average Pearson correlation coefficient of 0.92 across different policies.
- Abstract(参考訳): ロボット操作ポリシーの信頼性評価は、実世界のパフォーマンスのための高忠実度プロキシとして機能する。
既存のベンチマークは幅広いタスクカテゴリをカバーするが、視覚的リアリズムが欠如しており、シミュレーションと現実の間に大きな領域ギャップが生じる。
これにより,実環境の性能予測におけるシミュレーションに基づく評価の信頼性が損なわれる。
そこで,本研究では,照明と材料の影響を分離するために,シム・トゥ・リアルの視覚的ギャップを軽減するために,系統的な解析を行った。
これらの要因は幾何学的推論や空間的接地において重要な役割を担っているが,既存のベンチマークでは概ね見過ごされている。
そこで本研究では,シミュレーションにおけるロボット操作評価のための,視覚的にリアルなベンチマークであるVISERを提案する。
VISERは、物理ベースのレンダリング(PBR)素材を備えた1000以上の3Dアセットの高忠実度データセットと、それらのアセットから作成される3Dシーンを、レイアウトや生成によって構成する。
そこで本稿では,MLLM(Multi-modal Large Language Models)を利用した自動パイプラインを提案する。
高忠実度3Dアセットデータセットをベースとして、把握、配置、長距離タスクなどの多様な評価タスクを構築し、VLA(Vision-Language-Action)モデルのスケーラブルで再現可能な評価を可能にする。
本ベンチマークでは,シミュレーションと実環境性能の相関関係を強く示し,Pearsonの相関係数の平均は0.92である。
関連論文リスト
- RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies [20.899640428403377]
既存のベンチマークでは、トレーニングと評価の間に大きなドメインオーバーラップが見られる。
これらの課題に対処するために設計されたシミュレーションベンチマークフレームワークであるRoboLabを紹介します。
詳細なメトリクスとスケーラブルなツールセットを提供することで、RoboLabはタスクジェネリストロボットポリシーの真の一般化能力を評価するためのスケーラブルなフレームワークを提供する。
論文 参考訳(メタデータ) (2026-04-10T19:42:21Z) - Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces [81.41397370235102]
我々はOmniBehaviorを紹介した。OmniBehaviorは実世界のデータから構築された最初のユーザシミュレーションベンチマークである。
現在のモデルでは,コンテキストウィンドウが拡大しても,複雑な振る舞いを正確にシミュレートすることが困難であることを示す。
この結果、個人差や長い尾の挙動が失われ、将来の高忠実度シミュレーション研究における重要な方向性が浮き彫りになる。
論文 参考訳(メタデータ) (2026-04-09T15:26:21Z) - Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation [77.07565723756119]
InternVLA-A1は動的予測機能を備えた視覚言語モデルである。
我々は、実世界のロボットデータ、合成シミュレーションデータ、人間のビデオなどを用いて、これらのモデルを異種データソース上で事前訓練する。
InternVLA-A1を実世界の12のロボットタスクとシミュレーションベンチマークで評価した。
論文 参考訳(メタデータ) (2026-01-05T18:54:29Z) - PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies [88.78188489161028]
シミュレーションにおける政策評価と環境復元(PolaRiS)の導入
PolaRiSは、高忠実度シミュレーションロボット評価のためのスケーラブルなリアルタイム・シミュレート・フレームワークである。
PolaRiSの評価は,既存のシミュレーションベンチマークよりも,現実のジェネラリストのポリシー性能に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2025-12-18T18:49:41Z) - RealEngine: Simulating Autonomous Driving in Realistic Context [60.55873455475112]
RealEngineは3Dシーン再構成と新しいビュー合成技術を統合する新しい運転シミュレーションフレームワークである。
実世界のマルチモーダルセンサーデータを活用することで、RealEngineはバックグラウンドシーンとフォアグラウンドトラフィック参加者を別々に再構築し、非常に多様な現実的なトラフィックシナリオを実現する。
RealEngineは、非反応性シミュレーション、安全性テスト、マルチエージェントインタラクションの3つの重要な駆動シミュレーションカテゴリをサポートしている。
論文 参考訳(メタデータ) (2025-05-22T17:01:00Z) - GraphSCENE: On-Demand Critical Scenario Generation for Autonomous Vehicles in Simulation [11.896059467313668]
本研究では,多様なトラフィックシナリオに対応する動的時間的シーングラフをオンデマンドで生成し,ユーザ定義の好みに合わせて作成する手法を提案する。
時間的グラフニューラルネットワーク(GNN)モデルは、実世界の相互作用パターンによって導かれる、エゴ・車両エージェントと静的構造の関係を予測することを学習する。
予測されたシナリオをシミュレーションでレンダリングし、AVエージェントのテスト環境としての有効性をさらに実証する。
論文 参考訳(メタデータ) (2024-10-17T13:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。