論文の概要: The Phenomenon of Policy Churn
- arxiv url: http://arxiv.org/abs/2206.00730v1
- Date: Wed, 1 Jun 2022 19:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 12:55:37.137127
- Title: The Phenomenon of Policy Churn
- Title(参考訳): 政策の混乱という現象
- Authors: Tom Schaul, Andr\'e Barreto, John Quan, Georg Ostrovski
- Abstract要約: 我々は、価値に基づく強化学習において、政策の混乱、すなわち、欲求政策の急激な変化について研究する。
政策の混乱は驚くほど速いペースで行われ、少数の学習アップデートで少数の州で欲張りの行動を変える。
- 参考スコア(独自算出の注目度): 9.370224519225008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We identify and study the phenomenon of policy churn, that is, the rapid
change of the greedy policy in value-based reinforcement learning. Policy churn
operates at a surprisingly rapid pace, changing the greedy action in a large
fraction of states within a handful of learning updates (in a typical deep RL
set-up such as DQN on Atari). We characterise the phenomenon empirically,
verifying that it is not limited to specific algorithm or environment
properties. A number of ablations help whittle down the plausible explanations
on why churn occurs to just a handful, all related to deep learning. Finally,
we hypothesise that policy churn is a beneficial but overlooked form of
implicit exploration that casts $\epsilon$-greedy exploration in a fresh light,
namely that $\epsilon$-noise plays a much smaller role than expected.
- Abstract(参考訳): 我々は,価値ベースの強化学習における欲望政策の急速な変化という,政策の混乱の現象を特定し,研究する。
policy churnは驚くほど速いペースで動作し、ほんの一握りの学習アップデート(atariのdqnのような典型的なディープrl設定)で、多くの州で欲張りな行動を変える。
この現象を実証的に特徴付け、特定のアルゴリズムや環境特性に限らないことを検証した。
深層学習にまつわる、ほんの一握りの理由に関する、もっともらしい説明を、多くのアブレーションが取り除くのに役立ちます。
最後に、政策の混乱は有益だが見過ごされている暗黙の探究の形で、新鮮な光の中で$\epsilon$-greedyの探索を流す、すなわち$\epsilon$-noiseが予想よりもはるかに小さな役割を担っている、という仮説を立てる。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Careful at Estimation and Bold at Exploration [21.518406902400432]
政策に基づく探索は、決定論的政策強化学習における継続的な行動空間にとって有益である。
しかし、政策に基づく探索には、目的のない探索と政策の分岐という2つの大きな問題がある。
政策勾配とは別に,これらの問題を緩和するための新たな探索戦略を導入する。
論文 参考訳(メタデータ) (2023-08-22T10:52:46Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Reward-Free Policy Space Compression for Reinforcement Learning [39.04317877999891]
強化学習では,環境と相互作用するエージェントの潜在的な振る舞いを無限のポリシーにエンコードする。
我々は、政策空間の報酬のない圧縮を、代表政策の有限集合に求めている。
政策空間のこの圧縮は集合被覆問題として定式化できることを示し、本質的にNPハードである。
論文 参考訳(メタデータ) (2022-02-22T18:11:57Z) - Curious Explorer: a provable exploration strategy in Policy Learning [0.0]
我々は,新規かつ簡便な状態空間探索戦略であるCurious Explorerを開発した。
Curious Explorerは$rho$から始まり、不訪問状態のセットに割り当てられた固有の報酬を使用することで、一連のポリシーを生成する。
我々は、Curious Explorerが、挑戦的な探索を行い、MDPの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2021-06-29T15:31:51Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文 参考訳(メタデータ) (2020-07-28T18:30:23Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Temporally-Extended {\epsilon}-Greedy Exploration [17.776146494973574]
ディザリングを低減しつつ,エプシロングレーディの単純さを維持する探索アルゴリズムを提案する。
多くの期間にわたって、これは大きな領域の探索を改善するのに十分であることがわかった。
論文 参考訳(メタデータ) (2020-06-02T17:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。