論文の概要: Domain Adaptation In Reinforcement Learning Via Latent Unified State
Representation
- arxiv url: http://arxiv.org/abs/2102.05714v1
- Date: Wed, 10 Feb 2021 19:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:24:34.357666
- Title: Domain Adaptation In Reinforcement Learning Via Latent Unified State
Representation
- Title(参考訳): Latent Unified State Representationによる強化学習におけるドメイン適応
- Authors: Jinwei Xing, Takashi Nagata, Kexin Chen, Xinyun Zou, Emre Neftci,
Jeffrey L. Krichmar
- Abstract要約: 第1段階では複数のドメイン間で整合性を持つ潜在統一状態表現(LUSR)を学習し,第2段階ではLUSRに基づいて1つのソースドメインでRLトレーニングを行う2段階RLエージェントを提案する。
LUSRのクロスドメイン一貫性により、ソースドメインから取得したポリシーは、余分なトレーニングなしで他のターゲットドメインに一般化することができる。
提案手法は,RLタスクにおける最先端のドメイン適応性能を実現し,潜在表現に基づくRLとイメージ・ツー・イメージの変換に基づく先行手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.435381256004719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent success of deep reinforcement learning (RL), domain
adaptation remains an open problem. Although the generalization ability of RL
agents is critical for the real-world applicability of Deep RL, zero-shot
policy transfer is still a challenging problem since even minor visual changes
could make the trained agent completely fail in the new task. To address this
issue, we propose a two-stage RL agent that first learns a latent unified state
representation (LUSR) which is consistent across multiple domains in the first
stage, and then do RL training in one source domain based on LUSR in the second
stage. The cross-domain consistency of LUSR allows the policy acquired from the
source domain to generalize to other target domains without extra training. We
first demonstrate our approach in variants of CarRacing games with customized
manipulations, and then verify it in CARLA, an autonomous driving simulator
with more complex and realistic visual observations. Our results show that this
approach can achieve state-of-the-art domain adaptation performance in related
RL tasks and outperforms prior approaches based on latent-representation based
RL and image-to-image translation.
- Abstract(参考訳): 近年の深層強化学習(RL)の成功にもかかわらず、ドメイン適応は未解決の問題である。
RLエージェントの一般化能力はDeep RLの現実世界の適用性にとって重要ですが、訓練されたエージェントが新しいタスクで完全に失敗する可能性があるため、ゼロショットポリシー転送は依然として困難な問題です。
そこで本研究では,第1段階で複数のドメインにまたがる遅延統一状態表現(LUSR)を学習する2段階のRLエージェントを提案し,第2段階ではLUSRをベースとした1つのソースドメインでRLトレーニングを行う。
LUSRのクロスドメイン一貫性により、ソースドメインから取得したポリシーは、追加のトレーニングなしで他のターゲットドメインに一般化できます。
まず、カスタマイズされた操作でCarRacingゲームにアプローチを実証し、さらにより複雑で現実的な視覚的観察が可能な自律走行シミュレータであるCARLAで検証する。
提案手法は,RLタスクにおける最先端のドメイン適応性能を実現し,潜在表現に基づくRLとイメージ・ツー・イメージの変換に基づく先行手法よりも優れていることを示す。
関連論文リスト
- Bridging the Reality Gap of Reinforcement Learning based Traffic Signal
Control using Domain Randomization and Meta Learning [0.7614628596146599]
本稿では,この現実のギャップに寄与する潜在的なシミュレーションパラメータを包括的に分析する。
ドメインランダム化(DR)とモデル非依存メタラーニング(MAML)という,このギャップを埋める有望な2つの戦略を検討する。
実験の結果,DRとMAMLはいずれも最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-21T05:17:21Z) - Collaborative World Models: An Online-Offline Transfer RL Approach [112.60772190302507]
オフライン環境下での視覚的RLの性能を向上させるために,コラボレーティブ・ワールド・モデル(CoWorld)と呼ばれる伝達学習手法を提案する。
実験によると、CoWorldはDeepMind ControlとMeta-Worldのオフライン視覚制御タスクにおいて、既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Dual RL: Unification and New Methods for Reinforcement and Imitation
Learning [29.045223654843113]
我々は,現在最先端の高度強化学習(RL)アルゴリズムを,統一フレームワークにおける2つのRLアプローチと見なせることを示した。
本稿では、任意のオフポリシーデータを用いた実演模倣学習を可能にする2つのRLフレームワークに簡単な修正を加えた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-16T20:10:06Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Unified State Representation Learning under Data Augmentation [8.904143080467348]
強化学習エージェントの一般化は実世界での成功に不可欠である。
データ拡張に基づく統一状態表現学習(USRA: Unified State Representation Learning)を提案する。
その結果,USRAはサンプル効率が向上し,ドメイン適応性能が14.3%向上することがわかった。
論文 参考訳(メタデータ) (2022-09-12T15:10:28Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Efficient State Representation Learning for Dynamic Robotic Scenarios [2.7554288121906296]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
本稿では、SRLを元の強化学習尺度に統合する、抽象表現によるポリシー最適化という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Domain Adversarial Reinforcement Learning [37.21155002604856]
我々は,観察の視覚的側面が異なる強化学習における一般化の問題を考える。
エージェントの性能は、MDP分布から引き出された新しい未知のテストドメインに報告される。
このアプローチは、新しい未確認領域への大幅な一般化の改善を可能にすることを実証的に示す。
論文 参考訳(メタデータ) (2021-02-14T07:58:41Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z) - Learn to Interpret Atari Agents [106.21468537372995]
リージョン・センシティブ・レインボー(Rerea-sensitive Rainbow、RS-Rainbow)は、Qネットワークの強力なエージェントであるレインボーをベースとした、エンドツーエンドのトレーニング可能なネットワークである。
提案するエージェントは地域感応性レインボー (RS-Rainbow) と名付けられ, 強力なQネットワークエージェントであるレインボーをベースとしたエンド・ツー・エンドのトレーニング可能なネットワークである。
論文 参考訳(メタデータ) (2018-12-29T03:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。