論文の概要: Domain Adaptation In Reinforcement Learning Via Latent Unified State
Representation
- arxiv url: http://arxiv.org/abs/2102.05714v1
- Date: Wed, 10 Feb 2021 19:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:24:34.357666
- Title: Domain Adaptation In Reinforcement Learning Via Latent Unified State
Representation
- Title(参考訳): Latent Unified State Representationによる強化学習におけるドメイン適応
- Authors: Jinwei Xing, Takashi Nagata, Kexin Chen, Xinyun Zou, Emre Neftci,
Jeffrey L. Krichmar
- Abstract要約: 第1段階では複数のドメイン間で整合性を持つ潜在統一状態表現(LUSR)を学習し,第2段階ではLUSRに基づいて1つのソースドメインでRLトレーニングを行う2段階RLエージェントを提案する。
LUSRのクロスドメイン一貫性により、ソースドメインから取得したポリシーは、余分なトレーニングなしで他のターゲットドメインに一般化することができる。
提案手法は,RLタスクにおける最先端のドメイン適応性能を実現し,潜在表現に基づくRLとイメージ・ツー・イメージの変換に基づく先行手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.435381256004719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent success of deep reinforcement learning (RL), domain
adaptation remains an open problem. Although the generalization ability of RL
agents is critical for the real-world applicability of Deep RL, zero-shot
policy transfer is still a challenging problem since even minor visual changes
could make the trained agent completely fail in the new task. To address this
issue, we propose a two-stage RL agent that first learns a latent unified state
representation (LUSR) which is consistent across multiple domains in the first
stage, and then do RL training in one source domain based on LUSR in the second
stage. The cross-domain consistency of LUSR allows the policy acquired from the
source domain to generalize to other target domains without extra training. We
first demonstrate our approach in variants of CarRacing games with customized
manipulations, and then verify it in CARLA, an autonomous driving simulator
with more complex and realistic visual observations. Our results show that this
approach can achieve state-of-the-art domain adaptation performance in related
RL tasks and outperforms prior approaches based on latent-representation based
RL and image-to-image translation.
- Abstract(参考訳): 近年の深層強化学習(RL)の成功にもかかわらず、ドメイン適応は未解決の問題である。
RLエージェントの一般化能力はDeep RLの現実世界の適用性にとって重要ですが、訓練されたエージェントが新しいタスクで完全に失敗する可能性があるため、ゼロショットポリシー転送は依然として困難な問題です。
そこで本研究では,第1段階で複数のドメインにまたがる遅延統一状態表現(LUSR)を学習する2段階のRLエージェントを提案し,第2段階ではLUSRをベースとした1つのソースドメインでRLトレーニングを行う。
LUSRのクロスドメイン一貫性により、ソースドメインから取得したポリシーは、追加のトレーニングなしで他のターゲットドメインに一般化できます。
まず、カスタマイズされた操作でCarRacingゲームにアプローチを実証し、さらにより複雑で現実的な視覚的観察が可能な自律走行シミュレータであるCARLAで検証する。
提案手法は,RLタスクにおける最先端のドメイン適応性能を実現し,潜在表現に基づくRLとイメージ・ツー・イメージの変換に基づく先行手法よりも優れていることを示す。
関連論文リスト
- Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning [26.915055027485465]
限られたデータを持つ対象領域におけるポリシー学習を強化するために,オフラインオフダイナミックス強化学習(RL)について検討する。
我々のアプローチは、リターン条件付き教師あり学習(RCSL)、特に決定変換器(DT)に焦点を当てている。
本研究では、ソース領域のリターンをターゲット領域のリターンと整列させて拡張するリターンAugmented Decision Transformer (RADT) 法を提案する。
論文 参考訳(メタデータ) (2024-10-30T20:46:26Z) - Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - Bridging the Reality Gap of Reinforcement Learning based Traffic Signal
Control using Domain Randomization and Meta Learning [0.7614628596146599]
本稿では,この現実のギャップに寄与する潜在的なシミュレーションパラメータを包括的に分析する。
ドメインランダム化(DR)とモデル非依存メタラーニング(MAML)という,このギャップを埋める有望な2つの戦略を検討する。
実験の結果,DRとMAMLはいずれも最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-21T05:17:21Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Unified State Representation Learning under Data Augmentation [8.904143080467348]
強化学習エージェントの一般化は実世界での成功に不可欠である。
データ拡張に基づく統一状態表現学習(USRA: Unified State Representation Learning)を提案する。
その結果,USRAはサンプル効率が向上し,ドメイン適応性能が14.3%向上することがわかった。
論文 参考訳(メタデータ) (2022-09-12T15:10:28Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Domain Adversarial Reinforcement Learning [37.21155002604856]
我々は,観察の視覚的側面が異なる強化学習における一般化の問題を考える。
エージェントの性能は、MDP分布から引き出された新しい未知のテストドメインに報告される。
このアプローチは、新しい未確認領域への大幅な一般化の改善を可能にすることを実証的に示す。
論文 参考訳(メタデータ) (2021-02-14T07:58:41Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z) - Learn to Interpret Atari Agents [106.21468537372995]
リージョン・センシティブ・レインボー(Rerea-sensitive Rainbow、RS-Rainbow)は、Qネットワークの強力なエージェントであるレインボーをベースとした、エンドツーエンドのトレーニング可能なネットワークである。
提案するエージェントは地域感応性レインボー (RS-Rainbow) と名付けられ, 強力なQネットワークエージェントであるレインボーをベースとしたエンド・ツー・エンドのトレーニング可能なネットワークである。
論文 参考訳(メタデータ) (2018-12-29T03:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。