論文の概要: Deep Reinforcement Learning amidst Lifelong Non-Stationarity
- arxiv url: http://arxiv.org/abs/2006.10701v1
- Date: Thu, 18 Jun 2020 17:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 09:40:27.948889
- Title: Deep Reinforcement Learning amidst Lifelong Non-Stationarity
- Title(参考訳): 生涯非定常における深層強化学習
- Authors: Annie Xie, James Harrison, Chelsea Finn
- Abstract要約: 政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
- 参考スコア(独自算出の注目度): 67.24635298387624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As humans, our goals and our environment are persistently changing throughout
our lifetime based on our experiences, actions, and internal and external
drives. In contrast, typical reinforcement learning problem set-ups consider
decision processes that are stationary across episodes. Can we develop
reinforcement learning algorithms that can cope with the persistent change in
the former, more realistic problem settings? While on-policy algorithms such as
policy gradients in principle can be extended to non-stationary settings, the
same cannot be said for more efficient off-policy algorithms that replay past
experiences when learning. In this work, we formalize this problem setting, and
draw upon ideas from the online learning and probabilistic inference literature
to derive an off-policy RL algorithm that can reason about and tackle such
lifelong non-stationarity. Our method leverages latent variable models to learn
a representation of the environment from current and past experiences, and
performs off-policy RL with this representation. We further introduce several
simulation environments that exhibit lifelong non-stationarity, and empirically
find that our approach substantially outperforms approaches that do not reason
about environment shift.
- Abstract(参考訳): 人間として、私たちの目標と環境は、私たちの経験、行動、そして内部および外部のドライブに基づいて、生涯にわたって変化し続けています。
対照的に、典型的な強化学習問題集合は、エピソード間で定常的な決定過程を考える。
より現実的な問題設定における永続的な変化に対処できる強化学習アルゴリズムを開発できるだろうか?
原則としてポリシー勾配のようなオンポリシーアルゴリズムは、非定常設定に拡張できるが、学習時に過去の経験を再現するより効率的なオフポリシーアルゴリズムについては、同じことが言えない。
本研究では,この問題設定を定式化し,オンライン学習と確率的推論文学からアイデアを引き出して,このような長寿の非定常性を推論し,対処できる非政治的RLアルゴリズムを導出する。
提案手法は潜時変動モデルを用いて,現在および過去の経験から環境の表現を学習し,この表現を用いて非政治的RLを実行する。
さらに, 生涯非定常性を示すシミュレーション環境をいくつか導入し, 環境変化を理由としないアプローチを実質的に上回っていることを実証的に確認する。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Learning fast changing slow in spiking neural networks [3.069335774032178]
強化学習(Reinforcement Learning, RL)は、実生活問題に適用する際の課題である。
生涯学習機械は可塑性安定パラドックスを解決しなければならない。
新たな知識の獲得と安定性の維持のバランスを取ることは、人工エージェントにとって不可欠である。
論文 参考訳(メタデータ) (2024-01-25T12:03:10Z) - Adaptive Tracking of a Single-Rigid-Body Character in Various
Environments [2.048226951354646]
単剛体キャラクタのシミュレーションに基づく深層強化学習手法を提案する。
中心運動モデル (CDM) を用いて, 全身特性を単一剛体 (SRB) として表現し, 基準運動を追跡する政策を訓練することにより, 様々な未観測環境変化に適応できる政策を得ることができる。
弊社の政策は、超ポータブルラップトップ上で30分以内に効率よく訓練され、学習中に経験されていない環境に対処できることを実証する。
論文 参考訳(メタデータ) (2023-08-14T22:58:54Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。