論文の概要: Deep Reinforcement Learning amidst Lifelong Non-Stationarity
- arxiv url: http://arxiv.org/abs/2006.10701v1
- Date: Thu, 18 Jun 2020 17:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 09:40:27.948889
- Title: Deep Reinforcement Learning amidst Lifelong Non-Stationarity
- Title(参考訳): 生涯非定常における深層強化学習
- Authors: Annie Xie, James Harrison, Chelsea Finn
- Abstract要約: 政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
- 参考スコア(独自算出の注目度): 67.24635298387624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As humans, our goals and our environment are persistently changing throughout
our lifetime based on our experiences, actions, and internal and external
drives. In contrast, typical reinforcement learning problem set-ups consider
decision processes that are stationary across episodes. Can we develop
reinforcement learning algorithms that can cope with the persistent change in
the former, more realistic problem settings? While on-policy algorithms such as
policy gradients in principle can be extended to non-stationary settings, the
same cannot be said for more efficient off-policy algorithms that replay past
experiences when learning. In this work, we formalize this problem setting, and
draw upon ideas from the online learning and probabilistic inference literature
to derive an off-policy RL algorithm that can reason about and tackle such
lifelong non-stationarity. Our method leverages latent variable models to learn
a representation of the environment from current and past experiences, and
performs off-policy RL with this representation. We further introduce several
simulation environments that exhibit lifelong non-stationarity, and empirically
find that our approach substantially outperforms approaches that do not reason
about environment shift.
- Abstract(参考訳): 人間として、私たちの目標と環境は、私たちの経験、行動、そして内部および外部のドライブに基づいて、生涯にわたって変化し続けています。
対照的に、典型的な強化学習問題集合は、エピソード間で定常的な決定過程を考える。
より現実的な問題設定における永続的な変化に対処できる強化学習アルゴリズムを開発できるだろうか?
原則としてポリシー勾配のようなオンポリシーアルゴリズムは、非定常設定に拡張できるが、学習時に過去の経験を再現するより効率的なオフポリシーアルゴリズムについては、同じことが言えない。
本研究では,この問題設定を定式化し,オンライン学習と確率的推論文学からアイデアを引き出して,このような長寿の非定常性を推論し,対処できる非政治的RLアルゴリズムを導出する。
提案手法は潜時変動モデルを用いて,現在および過去の経験から環境の表現を学習し,この表現を用いて非政治的RLを実行する。
さらに, 生涯非定常性を示すシミュレーション環境をいくつか導入し, 環境変化を理由としないアプローチを実質的に上回っていることを実証的に確認する。
関連論文リスト
- Adaptive Tracking of a Single-Rigid-Body Character in Various
Environments [2.048226951354646]
単剛体キャラクタのシミュレーションに基づく深層強化学習手法を提案する。
中心運動モデル (CDM) を用いて, 全身特性を単一剛体 (SRB) として表現し, 基準運動を追跡する政策を訓練することにより, 様々な未観測環境変化に適応できる政策を得ることができる。
弊社の政策は、超ポータブルラップトップ上で30分以内に効率よく訓練され、学習中に経験されていない環境に対処できることを実証する。
論文 参考訳(メタデータ) (2023-08-14T22:58:54Z) - Selective Uncertainty Propagation in Offline RL [28.324479520451195]
我々は、有限水平オフライン強化学習(RL)の設定を考察し、動的プログラミング(DP)アルゴリズムにおいて、任意のステップhでポリシーを学習することの難しさを動機としている。
本研究では, 分散シフトの難易度に適応する信頼区間構築のための, 選択的不確実性伝播というフレキシブルで汎用的な手法を開発した。
論文 参考訳(メタデータ) (2023-02-01T07:31:25Z) - Dichotomy of Control: Separating What You Can Control from What You
Cannot [129.62135987416164]
政策の制御(行動)と政策の制御(環境)以外のメカニズムを分離する将来の条件付き教師あり学習フレームワークを提案する。
我々は,DoCが条件付入力と整合したポリシを出力し,学習したポリシを所望のハイリターン未来結果に条件付けすることで,高リターン行動が正しく引き起こされることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:49:56Z) - Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning [5.09191791549438]
最近の研究は、主に決定論的なオフラインAtariとD4RLベンチマークにおいて、最先端の結果を達成した。
本稿では,この楽観主義バイアスに対処する手法を提案する。
シミュレーションにおいて,様々な自律運転タスクにおいて,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-21T04:12:48Z) - Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。
本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。
我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文 参考訳(メタデータ) (2022-04-12T08:32:26Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。