論文の概要: DROPO: Sim-to-Real Transfer with Offline Domain Randomization
- arxiv url: http://arxiv.org/abs/2201.08434v1
- Date: Thu, 20 Jan 2022 20:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 14:19:34.678771
- Title: DROPO: Sim-to-Real Transfer with Offline Domain Randomization
- Title(参考訳): DROPO: オフラインドメインランダム化によるSim-to-Real転送
- Authors: Gabriele Tiboni and Karol Arndt and Ville Kyrki
- Abstract要約: DROPOは、安全なsim-to-real転送のための領域ランダム化分布を推定する新しい手法である。
本研究では,DROPOがシミュレーション中の動的パラメータ分布を復元し,非モデル化現象を補償できる分布を求めることを実証する。
- 参考スコア(独自算出の注目度): 12.778412161239466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, domain randomization has gained a lot of traction as a
method for sim-to-real transfer of reinforcement learning policies in robotic
manipulation; however, finding optimal randomization distributions can be
difficult. In this paper, we introduce DROPO, a novel method for estimating
domain randomization distributions for safe sim-to-real transfer. Unlike prior
work, DROPO only requires a limited, precollected offline dataset of
trajectories, and explicitly models parameter uncertainty to match real data.
We demonstrate that DROPO is capable of recovering dynamic parameter
distributions in simulation and finding a distribution capable of compensating
for an unmodelled phenomenon. We also evaluate the method in two zero-shot
sim-to-real transfer scenarios, showing successful domain transfer and improved
performance over prior methods.
- Abstract(参考訳): 近年,ロボット操作における強化学習政策のシミュレートから現実への移行手法としてドメインランダム化が注目されているが,最適なランダム化分布の発見は困難である。
本稿では,安全なsim-to-real転送のための領域ランダム化分布推定法であるDROPOを紹介する。
以前の作業とは異なり、DROPOでは、トラジェクトリの限定されたオフラインデータセットと、実際のデータにマッチするパラメータの不確実性を明示的にモデル化するのみである。
本研究では,DROPOがシミュレーション中の動的パラメータ分布を復元し,非モデル化現象を補償できる分布を求めることを実証する。
また,本手法を2つのゼロショットsim-to-real転送シナリオで評価し,ドメイン転送が成功し,先行手法よりも性能が向上したことを示す。
関連論文リスト
- Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Enhancing Polynomial Chaos Expansion Based Surrogate Modeling using a
Novel Probabilistic Transfer Learning Strategy [2.980666177064344]
ブラックボックスシミュレーションでは、非侵入型PCEは一連のシミュレーション応答評価を用いてサロゲートを構築することができる。
そこで我々は,類似のPCEサロゲート構築タスクを通じて得られた知識を新たなサロゲート構築タスクに転送することで,伝達学習を活用することを提案する。
論文 参考訳(メタデータ) (2023-12-07T19:16:42Z) - Domain Randomization via Entropy Maximization [32.76511125425768]
そこで本研究では,実世界のデータを必要としないシミュレーションにおいて,シミュレーション中の動的分布を自動的に生成する,sim-to-realトランスファーに対処する新しい手法を提案する。
トレーニング分布のエントロピーを直接最大化する制約付き最適化問題であるEntropy Maximization (DORAEMON) によるDOmain RAndomizationを導入する。
我々は、高度に適応的で一般化可能な政策を得る上で、DORAEMONの一貫性のある利点を実証的に検証する。
論文 参考訳(メタデータ) (2023-11-03T12:54:05Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - Comparing Probability Distributions with Conditional Transport [63.11403041984197]
新しい発散として条件輸送(CT)を提案し、償却されたCT(ACT)コストと近似します。
ACTは条件付き輸送計画の計算を補正し、計算が容易な非バイアスのサンプル勾配を持つ。
さまざまなベンチマークデータセットのジェネレーティブモデリングでは、既存のジェネレーティブ敵対ネットワークのデフォルトの統計距離をACTに置き換えることで、一貫してパフォーマンスを向上させることが示されています。
論文 参考訳(メタデータ) (2020-12-28T05:14:22Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - Predicting Sim-to-Real Transfer with Probabilistic Dynamics Models [3.7692466417039814]
本稿では,RL ポリシーの sim-to-real 転送性能を予測する手法を提案する。
確率力学モデルはポリシーに沿って訓練され、実世界の軌道の固定セットで評価される。
論文 参考訳(メタデータ) (2020-09-27T15:06:54Z) - Data-efficient Domain Randomization with Bayesian Optimization [34.854609756970305]
ロボット制御のためのポリシーを学ぶとき、必要となる現実世界のデータは通常、入手するのに極めて高価である。
BayRnはブラックボックスのsim-to-realアルゴリズムであり、ドメインパラメータ分布を適応させることでタスクを効率的に解く。
以上の結果から,BayRnは,必要となる事前知識を著しく低減しつつ,シム・トゥ・リアル・トランスファーを行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2020-03-05T07:48:31Z) - Few-shot Domain Adaptation by Causal Mechanism Transfer [107.08605582020866]
我々は,少数のラベル付き対象ドメインデータと多数のラベル付きソースドメインデータしか利用できないレグレッション問題に対して,数ショットの教師付きドメイン適応(DA)について検討する。
現在のDA法の多くは、パラメータ化された分布シフトまたは明らかな分布類似性に基づく転送仮定に基づいている。
本稿では,データ生成機構がドメイン間で不変であるメタ分散シナリオであるメカニズム転送を提案する。
論文 参考訳(メタデータ) (2020-02-10T02:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。