論文の概要: TWIST: Teacher-Student World Model Distillation for Efficient
Sim-to-Real Transfer
- arxiv url: http://arxiv.org/abs/2311.03622v1
- Date: Tue, 7 Nov 2023 00:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:29:07.077129
- Title: TWIST: Teacher-Student World Model Distillation for Efficient
Sim-to-Real Transfer
- Title(参考訳): TWIST: 教師と学生の仮想世界モデル蒸留
- Authors: Jun Yamada, Marc Rigter, Jack Collins, Ingmar Posner
- Abstract要約: 本稿では,TWIST(Teacher-Student World Model Distillation for Sim-to-Real Transfer)を提案する。
具体的には、TWISTは状態観察をシミュレータから取得した特権情報として利用し、シミュレート・トゥ・リアル転送を著しく高速化する。
- 参考スコア(独自算出の注目度): 23.12048336150798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based RL is a promising approach for real-world robotics due to its
improved sample efficiency and generalization capabilities compared to
model-free RL. However, effective model-based RL solutions for vision-based
real-world applications require bridging the sim-to-real gap for any world
model learnt. Due to its significant computational cost, standard domain
randomisation does not provide an effective solution to this problem. This
paper proposes TWIST (Teacher-Student World Model Distillation for Sim-to-Real
Transfer) to achieve efficient sim-to-real transfer of vision-based model-based
RL using distillation. Specifically, TWIST leverages state observations as
readily accessible, privileged information commonly garnered from a simulator
to significantly accelerate sim-to-real transfer. Specifically, a teacher world
model is trained efficiently on state information. At the same time, a matching
dataset is collected of domain-randomised image observations. The teacher world
model then supervises a student world model that takes the domain-randomised
image observations as input. By distilling the learned latent dynamics model
from the teacher to the student model, TWIST achieves efficient and effective
sim-to-real transfer for vision-based model-based RL tasks. Experiments in
simulated and real robotics tasks demonstrate that our approach outperforms
naive domain randomisation and model-free methods in terms of sample efficiency
and task performance of sim-to-real transfer.
- Abstract(参考訳): モデルベースRLは、モデルフリーRLと比較してサンプル効率と一般化能力が改善されたために、現実のロボットにとって有望なアプローチである。
しかし、視覚に基づく実世界のアプリケーションに有効なモデルベースRLソリューションは、学習したあらゆる世界モデルに対して、シムから現実のギャップを埋める必要がある。
計算コストが大きいため、標準領域のランダム化はこの問題に対する効果的な解決策を提供しない。
本稿では,TWIST(Teacher-Student World Model Distillation for Sim-to-Real Transfer)を提案する。
具体的には、TWISTは状態観察をシミュレータから取得した特権情報として利用し、シミュレート・トゥ・リアル転送を著しく高速化する。
具体的には、状態情報に基づいて教師世界モデルを効率的に訓練する。
同時に、ドメインランダム化された画像観測から一致するデータセットが収集される。
教師の世界モデルは、ドメインをランダム化した画像観察を入力とする学生の世界モデルを監督する。
TWISTは教師から学生モデルに学習された潜在ダイナミクスモデルを蒸留することにより、視覚に基づくRLタスクの効率的かつ効果的なシミュレートを実現する。
シミュレーションおよび実ロボットタスクにおける実験により,本手法は,サンプル効率およびsim-to-real転送のタスク性能の観点から,ナイーブドメインランダム化およびモデルフリー手法よりも優れることが示された。
関連論文リスト
- ASID: Active Exploration for System Identification in Robotic Manipulation [32.27299045059514]
本稿では,少数の実世界のデータを活用して,シミュレーションモデルを自律的に洗練し,正確な制御戦略を立案する学習システムを提案する。
本研究は, ロボット操作作業における調音, 質量, その他の物理パラメータの同定における, このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T16:35:38Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Sim-to-Real Deep Reinforcement Learning with Manipulators for
Pick-and-place [1.7478203318226313]
深層強化学習モデルをシミュレーションから実世界に移す場合、その性能は満足できない。
本稿では,ロボットが物体を効果的に選択・配置できる自己教師型視覚ベースDRL法を提案する。
論文 参考訳(メタデータ) (2023-09-17T11:51:18Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via
Differentiable Physics-Based Simulation and Rendering [49.78647219715034]
本稿では,SAM-RL と呼ばれる感性認識モデルに基づく強化学習システムを提案する。
SAM-RLは、センサーを意識した学習パイプラインによって、ロボットがタスクプロセスを監視するための情報的視点を選択することを可能にする。
我々は,ロボット組立,ツール操作,変形可能なオブジェクト操作という3つの操作タスクを達成するための実世界の実験に,我々のフレームワークを適用した。
論文 参考訳(メタデータ) (2022-10-27T05:30:43Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。