論文の概要: Learning Domain Invariant Representations in Goal-conditioned Block MDPs
- arxiv url: http://arxiv.org/abs/2110.14248v2
- Date: Thu, 28 Oct 2021 01:19:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 12:59:21.148149
- Title: Learning Domain Invariant Representations in Goal-conditioned Block MDPs
- Title(参考訳): ゴール条件付きブロックMDPにおけるドメイン不変表現の学習
- Authors: Beining Han, Chongyi Zheng, Harris Chan, Keiran Paster, Michael R.
Zhang, Jimmy Ba
- Abstract要約: 目的条件付き政策を新しい環境に一般化する理論的枠組みを提案する。
本フレームワークでは,ドメインの一般化を促進する実践的な手法PA-SkewFitを開発する。
- 参考スコア(独自算出の注目度): 25.445394992810925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (RL) is successful in solving many complex Markov
Decision Processes (MDPs) problems. However, agents often face unanticipated
environmental changes after deployment in the real world. These changes are
often spurious and unrelated to the underlying problem, such as background
shifts for visual input agents. Unfortunately, deep RL policies are usually
sensitive to these changes and fail to act robustly against them. This
resembles the problem of domain generalization in supervised learning. In this
work, we study this problem for goal-conditioned RL agents. We propose a
theoretical framework in the Block MDP setting that characterizes the
generalizability of goal-conditioned policies to new environments. Under this
framework, we develop a practical method PA-SkewFit that enhances domain
generalization. The empirical evaluation shows that our goal-conditioned RL
agent can perform well in various unseen test environments, improving by 50%
over baselines.
- Abstract(参考訳): 深層強化学習(RL)は多くの複雑なマルコフ決定過程(MDP)の解決に成功している。
しかしエージェントはしばしば、現実世界への展開後に予期せぬ環境変化に直面している。
これらの変更は多くの場合、視覚入力エージェントの背景シフトなど、基礎的な問題とは無関係である。
残念ながら、深いRLポリシーは通常これらの変更に敏感であり、それらに対して堅牢に行動しない。
これは教師付き学習における領域一般化の問題に似ている。
本研究では、ゴール条件付きRLエージェントに対するこの問題について検討する。
本稿では,新しい環境に対する目標条件付きポリシーの一般化性を特徴付けるブロックMDP設定の理論的枠組みを提案する。
本フレームワークでは,ドメインの一般化を促進する実践的な手法PA-SkewFitを開発する。
実験により, 目標条件付きRLエージェントは, 様々な未確認試験環境で良好に動作し, ベースラインよりも50%向上した。
関連論文リスト
- Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning [13.167123175701802]
本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
論文 参考訳(メタデータ) (2022-08-03T22:52:26Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Domain Adversarial Reinforcement Learning [37.21155002604856]
我々は,観察の視覚的側面が異なる強化学習における一般化の問題を考える。
エージェントの性能は、MDP分布から引き出された新しい未知のテストドメインに報告される。
このアプローチは、新しい未確認領域への大幅な一般化の改善を可能にすることを実証的に示す。
論文 参考訳(メタデータ) (2021-02-14T07:58:41Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - A Survey of Reinforcement Learning Algorithms for Dynamically Varying
Environments [1.713291434132985]
強化学習(Reinforcement Learning, RL)アルゴリズムは、在庫管理、レコメンデータシステム、車両交通管理、クラウドコンピューティング、ロボット工学などの分野で応用されている。
これらの領域で生じる多くのタスクの現実的な合併症は、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。
本稿では、動的に変化する環境モデルを扱うために開発されたRL法について調査する。
これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。
論文 参考訳(メタデータ) (2020-05-19T09:42:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。