論文の概要: DexSim2Real: Foundation Model-Guided Sim-to-Real Transfer for Generalizable Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2605.05241v1
- Date: Sun, 03 May 2026 17:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.302103
- Title: DexSim2Real: Foundation Model-Guided Sim-to-Real Transfer for Generalizable Dexterous Manipulation
- Title(参考訳): DexSim2Real: 一般化可能なデキスタスマニピュレーションのための基礎モデル誘導型Sim-to-Realトランスファー
- Authors: Zijian Zeng, Fei Ding, Huiming Yang, Xianwei Li, Yuhao Liao,
- Abstract要約: DexSim2Realは、デクサラス操作のためのsim-to-realギャップをブリッジする統合フレームワークである。
本システムでは,視覚リアリズム批判として視覚言語モデルを用いて,クローズドループCMA-ESによるシミュレーションパラメータの最適化を行うFM-DR,ゼロショットsim-to-real RLへのクロスアテンションビズオ触覚融合を適応するTVCAP,LLMに基づくタスク分解に基づくプログレッシブスキルカリキュラム(PSC)の3つのコンポーネントを組み合わせる。
- 参考スコア(独自算出の注目度): 2.7246995570820354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sim-to-real transfer remains a critical bottleneck for deploying dexterous manipulation policies learned in simulation to real-world robots. Existing approaches rely on manually designed domain randomization or task-specific adaptation, limiting their generalizability across diverse manipulation scenarios. We present DexSim2Real, an integrated framework that leverages vision-language foundation models to bridge the sim-to-real gap for dexterous manipulation. Our system combines three components: (1) Foundation Model-Guided Domain Randomization (FM-DR), which uses a vision-language model as a visual realism critic to optimize simulation parameters via closed-loop CMA-ES, complementing text-based approaches like DrEureka with direct visual feedback; (2) a Tactile-Visual Cross-Attention Policy (TVCAP) that adapts cross-attention visuo-tactile fusion to zero-shot sim-to-real RL; and (3) a Progressive Skill Curriculum (PSC) that builds on LLM-based task decomposition with a difficulty scheduler tailored to contact-rich dexterous tasks. Extensive experiments on six challenging manipulation tasks with blinded evaluation demonstrate that DexSim2Real achieves a 78.2% average real-world success rate, outperforming DrEureka and DeXtreme while reducing the sim-to-real performance gap to only 8.3%.
- Abstract(参考訳): シミュレーションで学んだ巧妙な操作ポリシーを現実世界のロボットに展開する上で、シモン・トゥ・リアル・トランスファーは依然として重要なボトルネックとなっている。
既存のアプローチは、手動で設計されたドメインのランダム化やタスク固有の適応に依存しており、様々な操作シナリオにおける一般化性を制限する。
DexSim2Realは、視覚言語基盤モデルを利用して、デクスタラス操作のためのsim-to-realギャップを橋渡しする統合フレームワークである。
視覚リアリズム批判として視覚言語モデルを用いたFM-DR(Foundation Model-Guided Domain Randomization)と,CMA-ESによるシミュレーションパラメータの最適化,DrEurekaのようなテキストベースのアプローチと直接視覚フィードバックを補完する,Tactile-Visual Cross-Attention Policy(TVCAP)と,ゼロショットのsim-to-real RLへのクロスアテンション・ビジュオ・触覚融合を適応する,Progressive Skill Curriculum(PSC)の3つのコンポーネントを組み合わせる。
DexSim2Realは、DrEurekaとDeXtremeを上回り、sim-to-realパフォーマンスのギャップをわずか8.3%に減らした。
関連論文リスト
- Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models [35.41613201907666]
本稿では,UnderlinetextitRLベースのsim-real UnderlinetextitCo-training modified(RL-Co)フレームワークを提案する。
RLコトレーニングは、目に見えないタスクのバリエーションに強く一般化し、実世界のデータ効率を大幅に改善する。
論文 参考訳(メタデータ) (2026-02-13T05:15:50Z) - Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer [59.02729900344616]
GPUを加速したフォトリアリスティックなシミュレーションは、ロボット学習のためのスケーラブルなデータ生成パスを開いた。
視覚に基づくヒューマノイドロコ操作のための教師-学生-ブートストラップ学習フレームワークを開発した。
これは、純粋なRGB知覚を用いた多様な調音ロコ操作が可能な初めてのヒューマノイド・シム・トゥ・リアル政策である。
論文 参考訳(メタデータ) (2025-11-30T20:07:13Z) - Real-to-Sim Robot Policy Evaluation with Gaussian Splatting Simulation of Soft-Body Interactions [27.247431258140463]
本稿では,現実の映像からソフトボディのディジタルツインを構築するための,リアル・トゥ・シミュレート・ポリシー評価フレームワークを提案する。
我々は,ぬいぐるみのパッキング,ロープルーティング,Tブロックプッシュなど,代表的な変形可能な操作タスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-11-06T18:52:08Z) - An Real-Sim-Real (RSR) Loop Framework for Generalizable Robotic Policy Transfer with Differentiable Simulation [13.15220962477623]
本稿では,シミュレーションと実環境のギャップを解消する新しいリアルタイムループフレームワークを提案する。
我々の研究の重要な貢献は、多様で代表的な実世界のデータの収集を促進する情報的コスト関数の設計である。
我々のアプローチは多機能なMJXプラットフォーム上で実装されており、我々のフレームワークは幅広いロボットシステムと互換性がある。
論文 参考訳(メタデータ) (2025-03-13T07:27:05Z) - Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [56.892520712892804]
本稿では,ヒューマノイドロボットを訓練して3つの巧妙な操作を行う,実用的なシミュレート・トゥ・リアルなRLレシピを提案する。
未確認のオブジェクトやロバストで適応的な政策行動に対して高い成功率を示す。
論文 参考訳(メタデータ) (2025-02-27T18:59:52Z) - Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation [62.5805866419814]
Vid2Simは、ニューラル3Dシーンの再構築とシミュレーションのためのスケーラブルで費用効率のよいReal2simパイプラインを通じてsim2realギャップをブリッジする新しいフレームワークである。
実験により、Vid2Simはデジタル双生児と現実世界の都市ナビゲーションの性能を31.2%、成功率68.3%で大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-01-12T03:01:15Z) - DrEureka: Language Model Guided Sim-To-Real Transfer [64.14314476811806]
シミュレーションで学んだ政策を現実世界に伝達することは、ロボットのスキルを大規模に獲得する上で有望な戦略である。
本稿では,Large Language Models (LLMs) を用いてシム・トゥ・リアル設計の自動化と高速化を行う。
本手法では,ヨガボールの上を歩行する四足歩行や四足歩行など,新しいロボットタスクを解くことができる。
論文 参考訳(メタデータ) (2024-06-04T04:53:05Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。