論文の概要: Understanding the Pathologies of Approximate Policy Evaluation when
Combined with Greedification in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.15268v1
- Date: Wed, 28 Oct 2020 22:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 04:45:53.481920
- Title: Understanding the Pathologies of Approximate Policy Evaluation when
Combined with Greedification in Reinforcement Learning
- Title(参考訳): 強化学習におけるグレディフィケーションと組み合わせた近似政策評価の方法論の理解
- Authors: Kenny Young and Richard S. Sutton
- Abstract要約: 値関数近似を用いた強化学習の理論は、基本的に不完全である。
これまでの研究は、RLアルゴリズムで生じる様々な病理的行動を特定しており、これは政治上の評価と欲求化を近似するものである。
我々は、ポリシーの振動と複数の固定点に加えて、同じ基本的な問題が、与えられた近似に対する最悪のポリシーに収束する可能性があることを示す例を示す。
- 参考スコア(独自算出の注目度): 11.295757620340899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite empirical success, the theory of reinforcement learning (RL) with
value function approximation remains fundamentally incomplete. Prior work has
identified a variety of pathological behaviours that arise in RL algorithms
that combine approximate on-policy evaluation and greedification. One prominent
example is policy oscillation, wherein an algorithm may cycle indefinitely
between policies, rather than converging to a fixed point. What is not well
understood however is the quality of the policies in the region of oscillation.
In this paper we present simple examples illustrating that in addition to
policy oscillation and multiple fixed points -- the same basic issue can lead
to convergence to the worst possible policy for a given approximation. Such
behaviours can arise when algorithms optimize evaluation accuracy weighted by
the distribution of states that occur under the current policy, but greedify
based on the value of states which are rare or nonexistent under this
distribution. This means the values used for greedification are unreliable and
can steer the policy in undesirable directions. Our observation that this can
lead to the worst possible policy shows that in a general sense such algorithms
are unreliable. The existence of such examples helps to narrow the kind of
theoretical guarantees that are possible and the kind of algorithmic ideas that
are likely to be helpful. We demonstrate analytically and experimentally that
such pathological behaviours can impact a wide range of RL and dynamic
programming algorithms; such behaviours can arise both with and without
bootstrapping, and with linear function approximation as well as with more
complex parameterized functions like neural networks.
- Abstract(参考訳): 実証的な成功にもかかわらず、値関数近似を用いた強化学習理論(RL)は基本的に不完全である。
先行研究は、概略オンポリシー評価と欲欲化を組み合わせたrlアルゴリズムで生じる様々な病的行動を特定した。
1つの顕著な例はポリシーの発振であり、アルゴリズムは一定の点に収束するのではなく、ポリシーの間を無限に循環することができる。
しかし、よく理解されていないのは、振動領域における政策の質である。
本稿では、ポリシーの振動と複数の固定点に加えて、同じ基本的な問題が与えられた近似に対する最悪のポリシーに収束する可能性があることを示す単純な例を示す。
このような振る舞いは、アルゴリズムが現在のポリシーの下で起こる状態の分布によって重みづけられた評価精度を最適化する場合に起こりうるが、この分布下では希少または存在しない状態の値に基づいてグリード化される。
これは、欲求化に用いられる値は信頼できないことを意味し、望ましくない方向に政策を操縦することができる。
これが最悪のポリシーにつながる可能性があるという我々の観測は、一般的な意味ではそのようなアルゴリズムは信頼できないことを示している。
このような例の存在は、可能な理論的な保証の種類と、役に立つであろうアルゴリズム的なアイデアの種類を狭めるのに役立つ。
我々は、そのような病理学的挙動が、ブートストラップや線形関数近似、ニューラルネットワークのようなより複雑なパラメータ化関数など、幅広いRLおよび動的プログラミングアルゴリズムに影響を及ぼすことを解析的および実験的に実証した。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Chaining Value Functions for Off-Policy Learning [22.54793586116019]
本稿では,建設によって収束する非政治予測アルゴリズムの新たなファミリについて論じる。
提案手法は収束し、逆鍵行列の反復分解に対応することを証明した。
Baird氏の例のようなMDPに挑戦するアイデアを実証的に評価し,好意的な結果が得られた。
論文 参考訳(メタデータ) (2022-01-17T15:26:47Z) - Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm [16.115903198836694]
既存のデータから最適な行動を学ぶことは、強化学習(RL)における最も重要な問題の1つである。
エージェントの目的は、与えられたポリシー(行動ポリシーとして知られる)から得られたデータに基づいて最適なポリシーを計算することである。
本研究は,非政治行動と自然政策勾配を扱うために状態-行動分布補正を利用する,非政治的自然なアクター-批判的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T14:36:45Z) - The Role of Lookahead and Approximate Policy Evaluation in Policy
Iteration with Linear Value Function Approximation [14.528756508275622]
線形関数近似を用いて値関数を表現する場合、最小限のルックアヘッドとマルチステップリターンが必要であることを示す。
そして、この条件が満たされると、そのような近似ポリシーを用いて得られたポリシーの有限時間性能を特徴付ける。
論文 参考訳(メタデータ) (2021-09-28T01:20:08Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。