論文の概要: An Imitation from Observation Approach to Transfer Learning with
Dynamics Mismatch
- arxiv url: http://arxiv.org/abs/2008.01594v3
- Date: Mon, 16 Nov 2020 22:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:31:29.751644
- Title: An Imitation from Observation Approach to Transfer Learning with
Dynamics Mismatch
- Title(参考訳): ダイナミクスミスマッチを用いた移動学習への観察的アプローチからの模擬
- Authors: Siddharth Desai, Ishan Durugkar, Haresh Karnan, Garrett Warnell,
Josiah Hanna, Peter Stone
- Abstract要約: 本研究では,この移動問題に対する既存の解法として,観測からの模倣問題と密接に関連していることを示す。
我々は, 観測手法から, 対向的模倣に基づく新たなアルゴリズム, GARAT (Generative Adversarial reinforced action transformation) を導出する。
GARATで訓練されたエージェントは、既存のブラックボックス転送手法と比較して、ターゲット環境において高いリターンを達成する。
- 参考スコア(独自算出の注目度): 44.898655782896306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We examine the problem of transferring a policy learned in a source
environment to a target environment with different dynamics, particularly in
the case where it is critical to reduce the amount of interaction with the
target environment during learning. This problem is particularly important in
sim-to-real transfer because simulators inevitably model real-world dynamics
imperfectly. In this paper, we show that one existing solution to this transfer
problem - grounded action transformation - is closely related to the problem of
imitation from observation (IfO): learning behaviors that mimic the
observations of behavior demonstrations. After establishing this relationship,
we hypothesize that recent state-of-the-art approaches from the IfO literature
can be effectively repurposed for grounded transfer learning.To validate our
hypothesis we derive a new algorithm - generative adversarial reinforced action
transformation (GARAT) - based on adversarial imitation from observation
techniques. We run experiments in several domains with mismatched dynamics, and
find that agents trained with GARAT achieve higher returns in the target
environment compared to existing black-box transfer methods
- Abstract(参考訳): 特に,学習中の対象環境との相互作用量を減らすことが重要となる場合において,ソース環境で学習したポリシーを,動的に異なる対象環境に転送する問題について検討する。
この問題は、シミュレーターが必然的に現実世界のダイナミクスを不完全にモデル化するため、sim-to-real転送において特に重要である。
本稿では,この伝達問題に対する既存の解である接地行動変換 (grounded action transformation) が,観察からの模倣問題 (ifo: learning behaviors that mimic the observations of behavior demonstrations) と密接に関連していることを示す。
この関係を確立した後、近年のifo文献からの最先端のアプローチは、接地移動学習に効果的に活用できると仮定し、この仮説を検証するために、観察手法からの敵対的模倣に基づく新しいアルゴリズム、ジェネラティブ・アドバーサリアン強化行動変換(garat)を導出する。
我々は,不整合ダイナミクスを持つ複数の領域で実験を行い,ガラットで訓練されたエージェントが,既存のブラックボックス転送法よりも高いリターンを達成することを発見した。
関連論文リスト
- Conditional Kernel Imitation Learning for Continuous State Environments [9.750698192309978]
条件付きカーネル密度推定に基づく新しい模倣学習フレームワークを提案する。
我々は、多くの最先端ILアルゴリズムよりも一貫して優れた経験的性能を示す。
論文 参考訳(メタデータ) (2023-08-24T05:26:42Z) - Revisiting the Robustness of the Minimum Error Entropy Criterion: A
Transfer Learning Case Study [16.07380451502911]
本稿では,非ガウス雑音に対処する最小誤差エントロピー基準のロバスト性を再考する。
本稿では,分散シフトが一般的である実生活伝達学習回帰タスクの実現可能性と有用性について検討する。
論文 参考訳(メタデータ) (2023-07-17T15:38:11Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Transfer RL via the Undo Maps Formalism [29.798971172941627]
ドメイン間で知識を伝達することは、機械学習における最も基本的な問題の1つである。
本稿では,対話型ドメイン間で知識を伝達するフレームワークTvDを提案する。
この目的が,模倣学習を想起させるポリシー更新スキームに結びつき,それを実装するための効率的なアルゴリズムを導出することを示す。
論文 参考訳(メタデータ) (2022-11-26T03:44:28Z) - Transfer Learning on Heterogeneous Feature Spaces for Treatment Effects
Estimation [103.55894890759376]
本稿では,不均一な特徴空間を扱うために表現学習を利用するビルディングブロックを紹介する。
本稿では,これらのビルディングブロックを用いて,標準CATE学習者の伝達学習の等価性を回復する方法を示す。
論文 参考訳(メタデータ) (2022-10-08T16:41:02Z) - A New Representation of Successor Features for Transfer across
Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。
ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。
我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文 参考訳(メタデータ) (2021-07-18T12:37:05Z) - Seeing Differently, Acting Similarly: Imitation Learning with
Heterogeneous Observations [126.78199124026398]
多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。
本研究では、上記の学習問題を異種観察学習(HOIL)としてモデル化する。
本稿では,重要度重み付け,拒否学習,アクティブクエリに基づくIWREアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-17T05:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。