論文の概要: REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2512.19562v1
- Date: Mon, 22 Dec 2025 16:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.846449
- Title: REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation
- Title(参考訳): REALM:ロボットマニピュレーションの一般化のための実時間検証ベンチマーク
- Authors: Martin Sedlacek, Pavlo Yefanov, Georgy Ponimatkin, Jai Bardhan, Simon Pilc, Mederic Fourmy, Evangelos Kazakos, Cees G. M. Snoek, Josef Sivic, Vladimir Petrik,
- Abstract要約: VLA(Vision-Language-Action)モデルは、自然言語で記述されたタスクをロボットが理解し実行できるようにするモデルである。
重要な課題は、訓練された特定の環境や条件を超えて一般化できることです。
本稿では,VLAモデルの一般化能力を評価するための新しいシミュレーション環境とベンチマークであるREALMを提案する。
- 参考スコア(独自算出の注目度): 46.970355660265284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models empower robots to understand and execute tasks described by natural language instructions. However, a key challenge lies in their ability to generalize beyond the specific environments and conditions they were trained on, which is presently difficult and expensive to evaluate in the real-world. To address this gap, we present REALM, a new simulation environment and benchmark designed to evaluate the generalization capabilities of VLA models, with a specific emphasis on establishing a strong correlation between simulated and real-world performance through high-fidelity visuals and aligned robot control. Our environment offers a suite of 15 perturbation factors, 7 manipulation skills, and more than 3,500 objects. Finally, we establish two task sets that form our benchmark and evaluate the π_{0}, π_{0}-FAST, and GR00T N1.5 VLA models, showing that generalization and robustness remain an open challenge. More broadly, we also show that simulation gives us a valuable proxy for the real-world and allows us to systematically probe for and quantify the weaknesses and failure modes of VLAs. Project page: https://martin-sedlacek.com/realm
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、自然言語で記述されたタスクをロボットが理解し実行できるようにするモデルである。
しかし、重要な課題は、訓練された特定の環境や条件を超えて一般化する能力である。
このギャップに対処するために,VLAモデルの一般化能力を評価するために設計された新しいシミュレーション環境とベンチマークであるREALMを提案する。
私たちの環境には15の摂動要因、7の操作スキル、3500以上のオブジェクトが含まれています。
最後に、ベンチマークを構成する2つのタスクセットを確立し、π_{0}, π_{0}-FAST, GR00T N1.5 VLAモデルを評価する。
より広義には、シミュレーションによって現実世界の貴重なプロキシが得られ、VLAの弱点や障害モードを体系的に調査し、定量化することができることも示しています。
プロジェクトページ:https://martin-sedlacek.com/realm
関連論文リスト
- VLNVerse: A Benchmark for Vision-Language Navigation with Versatile, Embodied, Realistic Simulation and Evaluation [61.82502719679122]
本稿では,Versatile, Embodied, Realistic Simulation, EvaluationのベンチマークであるVLNVerseを紹介する。
VLNVerseは、スケーラブルでフルスタックのAI問題としてVLNを再定義する。
ベンチマーク内の全てのタスクに対処できる新しいマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2025-12-22T04:27:26Z) - PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies [88.78188489161028]
シミュレーションにおける政策評価と環境復元(PolaRiS)の導入
PolaRiSは、高忠実度シミュレーションロボット評価のためのスケーラブルなリアルタイム・シミュレート・フレームワークである。
PolaRiSの評価は,既存のシミュレーションベンチマークよりも,現実のジェネラリストのポリシー性能に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2025-12-18T18:49:41Z) - RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation [47.79800816696372]
操作ポリシーの現実的なテストは、大規模に労働集約的で、再現が難しい。
既存のシミュレーションベンチマークも同様に制限されており、同じ合成ドメイン内でポリシーをトレーニングおよびテストしている。
本稿では,VLA評価を大規模にシミュレーションした拡張環境に移行することで,これらの課題を克服する新しいベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T17:41:38Z) - HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions [64.69468932145234]
HA-VLN 2.0は、明示的な社会的認識制約を導入した統一ベンチマークである。
その結果、明示的な社会的モデリングはナビゲーションの堅牢性を向上し、衝突を減らすことが示唆された。
論文 参考訳(メタデータ) (2025-03-18T13:05:55Z) - Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data [26.004807291215258]
言語条件付きロボット操作は、複雑なタスクを理解し実行することができるロボットを開発することを目的としている。
基本スキルの事前知識と非構造化データに基づく模倣学習を組み合わせた汎用的言語条件付き手法を提案する。
ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-05-30T14:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。