論文の概要: TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.09023v3
- Date: Thu, 19 Mar 2026 06:49:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.298395
- Title: TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation
- Title(参考訳): TwinRL-VLA:実世界のロボットマニピュレーションのためのデジタルツイン駆動強化学習
- Authors: Qinwen Xu, Jiaming Liu, Rui Zhou, Shaojun Shi, Nuowei Han, Zhuoyang Liu, Chenyang Gu, Shuo Gu, Yang Yue, Gao Huang, Wenzhao Zheng, Sirui Han, Peng Jia, Shanghang Zhang,
- Abstract要約: 本稿では,VLAモデルのスケールと探索のガイドを目的としたデジタルツインワールド協調RLフレームワークであるTwinRLを提案する。
まず、高忠実度デジタルツインをスマートフォンで捉えたシーンから効率的に再構成し、実環境とシミュレートされた環境間の現実的な双方向転送を可能にする。
我々の実験では、TwinRLは、実世界の実証と流通域の両方でカバーされた流通域において100%の成功に近づき、従来の実世界のRL法よりも少なくとも30%のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 65.45588646626426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite strong generalization capabilities, Vision-Language-Action (VLA) models remain constrained by the high cost of expert demonstrations and insufficient real-world interaction. While online reinforcement learning (RL) has shown promise in improving general foundation models, applying RL to VLA manipulation in real-world settings is still hindered by low exploration efficiency and a restricted exploration space. Through systematic real-world experiments, we observe that the effective exploration space of online RL is closely tied to the data distribution of supervised fine-tuning (SFT). Motivated by this observation, we propose TwinRL, a digital twin-real-world collaborative RL framework designed to scale and guide exploration for VLA models. First, a high-fidelity digital twin is efficiently reconstructed from smartphone-captured scenes, enabling realistic bidirectional transfer between real and simulated environments. During the SFT warm-up stage, we introduce an exploration space expansion strategy using digital twins to broaden the support of the data trajectory distribution. Building on this enhanced initialization, we propose a sim-to-real guided exploration strategy to further accelerate online RL. Specifically, TwinRL performs efficient and parallel online RL in the digital twin prior to deployment, effectively bridging the gap between offline and online training stages. Subsequently, we exploit efficient digital twin sampling to identify failure-prone yet informative configurations, which are used to guide targeted human-in-the-loop rollouts on the real robot. In our experiments, TwinRL approaches 100% success in both in-distribution regions covered by real-world demonstrations and out-of-distribution regions, delivering at least a 30% speedup over prior real-world RL methods and requiring only about 20 minutes on average across four tasks.
- Abstract(参考訳): 強力な一般化能力にもかかわらず、Vision-Language-Action(VLA)モデルは、高コストな専門家によるデモンストレーションと不十分な現実世界の相互作用によって制約を受け続けている。
オンライン強化学習(RL)は、基礎モデルの改善に期待されているが、実際の環境でのVLA操作にRLを適用することは、探索効率の低下と探査スペースの制限によって依然として妨げられている。
実世界の系統的な実験を通して、オンラインRLの効果的な探索空間は、教師付き微調整(SFT)のデータ分布と密接に関連していることが観察された。
本研究の目的は,VLAモデルのスケールと探索のガイドを目的としたデジタルツインワールド協調RLフレームワークであるTwinRLを提案することである。
まず、高忠実度デジタルツインをスマートフォンで捉えたシーンから効率的に再構成し、実環境とシミュレートされた環境間の現実的な双方向転送を可能にする。
SFTウォームアップの段階では、デジタルツインを用いた探索空間拡張戦略を導入し、データ軌跡分布の支持を広げる。
この拡張された初期化に基づいて、オンラインRLをさらに加速するsim-to-realの探索戦略を提案する。
具体的には、TwinRLはデプロイ前にディジタルツインで効率的で並列なオンラインRLを実行し、オフラインとオンラインのトレーニングステージ間のギャップを効果的に埋める。
そこで,本研究では,実際のロボット上でのループ内ロールアウトの誘導に使用される,障害が発生しやすいが情報的構成を特定するために,効率的なディジタルツインサンプリングを利用する。
我々の実験では、TwinRLは実世界の実証と流通域の両方でカバーされた流通域で100%の成功に近づき、従来の実世界のRL法よりも30%以上のスピードアップを実現し、4つのタスクで平均20分程度しか必要としない。
関連論文リスト
- StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Train a Real-world Local Path Planner in One Hour via Partially Decoupled Reinforcement Learning and Vectorized Diversity [8.068886870457561]
深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。
実世界におけるそのような応用は、DRLの訓練効率と一般化能力の不足により、非常に制限されている。
アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowで構成されたColorというソリューションが提案されている。
論文 参考訳(メタデータ) (2023-05-07T03:39:31Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。