論文の概要: AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.02376v1
- Date: Wed, 3 Aug 2022 22:52:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:17:45.728973
- Title: AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning
- Title(参考訳): AACC:文脈強化学習における非対称アクター批判
- Authors: Wangyang Yue, Yuan Zhou, Xiaochuan Zhang, Yuchen Hua, Zhiyuan Wang,
Guang Kou
- Abstract要約: 本稿では,強化学習(RL)における環境動態の変化に適応するタスクを定式化する。
次に、このような一般化タスクに対処するエンドツーエンドのアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
- 参考スコア(独自算出の注目度): 13.167123175701802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) techniques have drawn great attention in many
challenging tasks, but their performance deteriorates dramatically when applied
to real-world problems. Various methods, such as domain randomization, have
been proposed to deal with such situations by training agents under different
environmental setups, and therefore they can be generalized to different
environments during deployment. However, they usually do not incorporate the
underlying environmental factor information that the agents interact with
properly and thus can be overly conservative when facing changes in the
surroundings. In this paper, we first formalize the task of adapting to
changing environmental dynamics in RL as a generalization problem using
Contextual Markov Decision Processes (CMDPs). We then propose the Asymmetric
Actor-Critic in Contextual RL (AACC) as an end-to-end actor-critic method to
deal with such generalization tasks. We demonstrate the essential improvements
in the performance of AACC over existing baselines experimentally in a range of
simulated environments.
- Abstract(参考訳): 強化学習(rl)技術は多くの課題において大きな注目を集めているが、実際の問題に適用するとその性能は劇的に低下する。
ドメインランダム化のような様々な手法は、異なる環境条件下での訓練エージェントによってそのような状況に対処するために提案されているため、デプロイ中に異なる環境に一般化することができる。
しかしながら、彼らは通常、エージェントが適切に相互作用する基礎となる環境因子情報を組み込まないため、周囲の変化に直面した時に過度に保守的である。
本稿では,文脈マルコフ決定過程(cmdps)を用いた一般化問題として,rlにおける環境力学の変化に適応するタスクを最初に定式化する。
次に、このような一般化タスクに対処するエンドツーエンドアクター批判手法として、コンテキストRL(AACC)における非対称アクター批判を提案する。
シミュレーション環境において,既存のベースラインに対するAACCの性能改善を実験的に示す。
関連論文リスト
- Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning [4.902544998453533]
環境の重力レベルなどの文脈的手がかりの理解と活用は、堅牢な一般化に不可欠である。
提案アルゴリズムは, 様々なシミュレートされた領域における一般化を改良し, ゼロショット設定における事前の文脈学習技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-15T07:31:48Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
論文 参考訳(メタデータ) (2023-09-18T21:00:01Z) - Improving adaptability to new environments and removing catastrophic
forgetting in Reinforcement Learning by using an eco-system of agents [3.5786621294068373]
強化学習(RL)エージェントを目に見えない環境に適応させることは、トレーニング環境に典型的な過度な適合のために難しい課題である。
破滅的な忘れ込みの危険性があり、これまで見られた環境のパフォーマンスが著しく妨げられている。
本稿では,エージェントのエコシステムを利用して双方の懸念に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-13T17:52:54Z) - Learning Domain Invariant Representations in Goal-conditioned Block MDPs [25.445394992810925]
目的条件付き政策を新しい環境に一般化する理論的枠組みを提案する。
本フレームワークでは,ドメインの一般化を促進する実践的な手法PA-SkewFitを開発する。
論文 参考訳(メタデータ) (2021-10-27T08:10:45Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。