論文の概要: Reactive Exploration to Cope with Non-Stationarity in Lifelong
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.05742v1
- Date: Tue, 12 Jul 2022 17:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 13:25:00.933344
- Title: Reactive Exploration to Cope with Non-Stationarity in Lifelong
Reinforcement Learning
- Title(参考訳): 生涯強化学習における非定常コードへの反応探索
- Authors: Christian Steinparz, Thomas Schmied, Fabian Paischer,
Marius-Constantin Dinu, Vihang Patil, Angela Bitto-Nemling, Hamid
Eghbal-zadeh, Sepp Hochreiter
- Abstract要約: 本稿では,生涯強化学習におけるドメインシフトの追跡と応答を目的としたリアクティブ探索を提案する。
政策段階の家族の代表者はQ学習よりも分布変化に迅速に適応するため、生涯学習に適していることを実証的に示す。
- 参考スコア(独自算出の注目度): 4.489095027077955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In lifelong learning, an agent learns throughout its entire life without
resets, in a constantly changing environment, as we humans do. Consequently,
lifelong learning comes with a plethora of research problems such as continual
domain shifts, which result in non-stationary rewards and environment dynamics.
These non-stationarities are difficult to detect and cope with due to their
continuous nature. Therefore, exploration strategies and learning methods are
required that are capable of tracking the steady domain shifts, and adapting to
them. We propose Reactive Exploration to track and react to continual domain
shifts in lifelong reinforcement learning, and to update the policy
correspondingly. To this end, we conduct experiments in order to investigate
different exploration strategies. We empirically show that representatives of
the policy-gradient family are better suited for lifelong learning, as they
adapt more quickly to distribution shifts than Q-learning. Thereby,
policy-gradient methods profit the most from Reactive Exploration and show good
results in lifelong learning with continual domain shifts. Our code is
available at: https://github.com/ml-jku/reactive-exploration.
- Abstract(参考訳): 生涯学習において、エージェントは人間のように常に変化する環境の中で、リセットなしで生涯学習する。
その結果、生涯学習には連続的なドメインシフトのような多くの研究課題が伴い、非定常的な報酬や環境ダイナミクスが生じる。
これらの非定常性は、その連続的な性質のために検出および対処が困難である。
したがって、安定したドメインシフトを追跡し、それに適応できる探索戦略と学習方法が必要となる。
我々は,生涯強化学習における連続的領域シフトを追跡し,対応し,それに対応する方針を更新するためのリアクティブ探索を提案する。
この目的のために,異なる探査戦略を検討するために実験を行った。
我々は,q-learningよりも分布シフトに迅速に適応するため,政策グレードファミリーの代表者が生涯学習に適していることを実証的に示す。
これにより、ポリシーグラディエントな手法はリアクティブ探索から最も利益を上げ、継続的なドメインシフトによる生涯学習のよい結果を示す。
私たちのコードは、https://github.com/ml-jku/reactive-explorationで利用可能です。
関連論文リスト
- Lifelong Continual Learning for Anomaly Detection: New Challenges, Perspectives, and Insights [3.654287752011122]
生涯の異常検出は、より広く検討された分類設定と比較して本質的に異なる課題をもたらす。
まず,生涯学習の複雑さに対処する異常検出手法を設計するための課題と機会を定義する。
第3に,生涯学習の導入によって得られるパフォーマンスのギャップを強調することを目的として,提案した生涯シナリオに対する一般的な異常検出手法を用いた実験を行った。
論文 参考訳(メタデータ) (2023-03-14T00:49:09Z) - Loss of Plasticity in Continual Deep Reinforcement Learning [14.475963928766134]
ディープRLエージェントは,Atari 2600の一連のゲームで,優れたポリシーを学習する能力を失っていることを実証する。
我々はこの現象を大規模に研究し、時間とともに重み、勾配、活性化がどのように変化するかを分析する。
解析の結果,ネットワークの活性化フットプリントがスペーサーとなり,勾配が減少することがわかった。
論文 参考訳(メタデータ) (2023-03-13T22:37:15Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Lifelong Policy Gradient Learning of Factored Policies for Faster
Training Without Forgetting [26.13332231423652]
本稿では, 生涯関数近似器を直接, ポリシー勾配を用いて訓練する, 生涯ポリシー勾配学習のための新しい方法を提案する。
我々は,我々のアルゴリズムが単一タスクや生涯学習ベースラインよりも高速に学習し,より良いポリシーに収束することを示す。
論文 参考訳(メタデータ) (2020-07-14T13:05:42Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Curriculum Learning for Reinforcement Learning Domains: A Framework and
Survey [53.73359052511171]
強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。
本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
論文 参考訳(メタデータ) (2020-03-10T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。