論文の概要: Grounding Sim-to-Real Generalization in Dexterous Manipulation: An Empirical Study with Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.22876v1
- Date: Tue, 24 Mar 2026 07:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.353921
- Title: Grounding Sim-to-Real Generalization in Dexterous Manipulation: An Empirical Study with Vision-Language-Action Models
- Title(参考訳): Dexterous Manipulationにおけるグラウンド・トゥ・リアル・ジェネレーション-ビジョン・ランゲージ・アクションモデルを用いた実証的研究
- Authors: Ruixing Jin, Zicheng Zhu, Ruixiang Ouyang, Sheng Xu, Bo Yue, Zhizheng Wu, Guiliang Liu,
- Abstract要約: 実世界のデータ収集のコストを考えると、実用的な代替手段はシミュレーションによって合成データを生成することである。
4次元にわたるSim-to-Real一般化の主行列式を実験的に検討する。
実世界の10万件以上の試験を含む実験を通して、シム・トゥ・リアルの移動に関する批判的な洞察を得る。
- 参考スコア(独自算出の注目度): 26.206956451239105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a generalist control policy for dexterous manipulation typically relies on large-scale datasets. Given the high cost of real-world data collection, a practical alternative is to generate synthetic data through simulation. However, the resulting synthetic data often exhibits a significant gap from real-world distributions. While many prior studies have proposed algorithms to bridge the Sim-to-Real discrepancy, there remains a lack of principled research that grounds these methods in real-world manipulation tasks, particularly their performance on generalist policies such as Vision-Language-Action (VLA) models. In this study, we empirically examine the primary determinants of Sim-to-Real generalization across four dimensions: multi-level domain randomization, photorealistic rendering, physics-realistic modeling, and reinforcement learning updates. To support this study, we design a comprehensive evaluation protocol to quantify the real-world performance of manipulation tasks. The protocol accounts for key variations in background, lighting, distractors, object types, and spatial features. Through experiments involving over 10k real-world trials, we derive critical insights into Sim-to-Real transfer. To inform and advance future studies, we release both the robotic platforms and the evaluation protocol for public access to facilitate independent verification, thereby establishing a realistic and standardized benchmark for dexterous manipulation policies.
- Abstract(参考訳): 厳密な操作のためのジェネラリスト制御ポリシーを学ぶことは、通常、大規模なデータセットに依存する。
実世界のデータ収集のコストが高いことを考えると、実用的な代替手段はシミュレーションによって合成データを生成することである。
しかし、結果として得られる合成データは、実世界の分布と大きな差を示すことが多い。
多くの先行研究がSim-to-Realの相違を補うアルゴリズムを提案しているが、これらの手法を現実世界の操作タスク、特にビジョン・ランゲージ・アクション(VLA)モデルのようなジェネラリストのポリシーに基礎を置く原理的な研究はいまだに存在しない。
本研究では,マルチレベル領域ランダム化,フォトリアリスティックレンダリング,物理リアルモデリング,強化学習更新の4次元にわたるシム・トゥ・レアル一般化の主要な決定要因を実験的に検討した。
本研究では,操作タスクの実際の性能を定量的に評価するための包括的評価プロトコルを設計する。
このプロトコルは、背景、照明、イントラクタ、オブジェクトタイプ、空間的特徴の鍵となるバリエーションを記述している。
10万以上の現実世界での試行を含む実験を通じて、シム・トゥ・リアル・トランスファーに関する重要な洞察を導き出す。
今後,ロボットプラットフォームと公共アクセスのための評価プロトコルの両方を公開し,個別の検証を容易にすることにより,厳密な操作ポリシーの現実的で標準化されたベンチマークを確立する。
関連論文リスト
- PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies [88.78188489161028]
シミュレーションにおける政策評価と環境復元(PolaRiS)の導入
PolaRiSは、高忠実度シミュレーションロボット評価のためのスケーラブルなリアルタイム・シミュレート・フレームワークである。
PolaRiSの評価は,既存のシミュレーションベンチマークよりも,現実のジェネラリストのポリシー性能に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2025-12-18T18:49:41Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training [21.855770200309674]
一般化可能な操作ポリシーを学習するための統合型sim-and-real協調学習フレームワークを提案する。
シミュレーションデータを活用することで,実世界の成功率を最大30%向上できることを示す。
論文 参考訳(メタデータ) (2025-09-23T04:32:53Z) - PRISM: Projection-based Reward Integration for Scene-Aware Real-to-Sim-to-Real Transfer with Few Demonstrations [24.77819842428131]
強化学習は、堅牢な行動を得るために自律的に探索することができる。
現実世界との直接の相互作用を通じてRLエージェントを訓練することは、しばしば非現実的で安全ではない。
本稿では,シミュレーション環境を専門家による実証に基づいて構築する,実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2025-04-29T08:01:27Z) - Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [56.892520712892804]
本稿では,ヒューマノイドロボットを訓練して3つの巧妙な操作を行う,実用的なシミュレート・トゥ・リアルなRLレシピを提案する。
未確認のオブジェクトやロバストで適応的な政策行動に対して高い成功率を示す。
論文 参考訳(メタデータ) (2025-02-27T18:59:52Z) - ManiBox: Enhancing Spatial Grasping Generalization via Scalable Simulation Data Generation [37.73074657448699]
bfManiBoxは、シミュレーションベースの教師学生フレームワーク上に構築された新しいバウンディングボックス誘導操作手法である。
ManiBoxは、空間的把握の一般化と多様なオブジェクトや背景への適応性を著しく改善した。
論文 参考訳(メタデータ) (2024-11-04T07:05:02Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。