論文の概要: Does DQN Learn?
- arxiv url: http://arxiv.org/abs/2205.13617v4
- Date: Sat, 21 Sep 2024 04:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-26 02:42:54.682623
- Title: Does DQN Learn?
- Title(参考訳): DQNは学ぶか?
- Authors: Aditya Gopalan, Gugan Thoppe,
- Abstract要約: 我々は、広く使われているディープQ-ネットワーク(DQN)が、この基本的な基準を満たさないことを示した。
DQNは一般的に、初期よりも政策を悪化させる非自明な確率があることを数値的に示す。
- 参考スコア(独自算出の注目度): 16.035744751431114
- License:
- Abstract: For a reinforcement learning method to be useful, the policy it estimates in the limit must be superior to the initial guess, at least on average. In this work, we show that the widely used Deep Q-Network (DQN) fails to meet even this basic criterion, even when it gets to see all possible states and actions infinitely often (a condition that ensures tabular Q-learning's convergence to the optimal Q-value). Our work's key highlights are as follows. First, we numerically show that DQN generally has a non-trivial probability of producing a policy worse than the initial one. Second, we give a theoretical explanation for this behavior in the context of linear DQN, wherein we replace the neural network with a linear function approximation but retain DQN's other key ideas, such as experience replay, target network, and $\epsilon$-greedy exploration. Our main result is that the tail behaviors of linear DQN are governed by invariant sets of a deterministic differential inclusion, a set-valued generalization of a differential equation. Notably, we show that these invariant sets need not align with locally optimal policies, thus explaining DQN's pathological behaviors, such as convergence to sub-optimal policies and policy oscillation. We also provide a scenario where the limiting policy is always the worst. Our work addresses a longstanding gap in understanding the behaviors of Q-learning with function approximation and $\epsilon$-greedy exploration.
- Abstract(参考訳): 強化学習法が有用であるためには、その限界で見積もるポリシーは、少なくとも平均的には、初期推定よりも優れている必要がある。
本研究では,全ての可能な状態や動作を無限に見ることができても,広く使用されている深層Q-Network (DQN) が,この基本的な基準を満たさないことを示す(この条件により,表型Q-ラーニングの最適Q-値への収束が保証される)。
私たちの作品のハイライトは以下のとおりです。
第一に、DQNは一般的に、初期よりも悪い政策を生み出す非自明な確率を持つことを示す。
第二に、線形DQNの文脈でこの振る舞いを理論的に説明し、ニューラルネットワークを線形関数近似に置き換えるが、DQNの他の重要な概念、例えば経験的リプレイ、ターゲットネットワーク、および$\epsilon$-greedy探索を保持する。
我々の主な結果は、線形DQNの尾の挙動は、決定論的微分包含の不変集合、つまり微分方程式の集合値一般化によって支配されることである。
特に、これらの不変集合は局所的最適ポリシーと整合する必要はないことを示し、DQNの準最適ポリシーへの収束や政策振動といった病理学的挙動を説明する。
また、制限ポリシーが常に最悪であるシナリオも提供します。
我々の研究は、関数近似と$\epsilon$-greedyの探索によるQ-ラーニングの振る舞いの理解における長年のギャップに対処する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Inverse Reinforcement Learning with Explicit Policy Estimates [19.159290496678004]
逆強化学習問題を解くための様々な手法が、機械学習と経済学において独立に開発された。
我々は、それらがすべて共通の形態の勾配、関連する政策と目的によって特徴づけられる最適化問題のクラスに属していることを示しています。
この最適化問題の研究から得られた知見を用いて,様々な問題シナリオを特定し,それらの問題に対する各手法の適合性について検討する。
論文 参考訳(メタデータ) (2021-03-04T07:00:58Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Understanding the Pathologies of Approximate Policy Evaluation when
Combined with Greedification in Reinforcement Learning [11.295757620340899]
値関数近似を用いた強化学習の理論は、基本的に不完全である。
これまでの研究は、RLアルゴリズムで生じる様々な病理的行動を特定しており、これは政治上の評価と欲求化を近似するものである。
我々は、ポリシーの振動と複数の固定点に加えて、同じ基本的な問題が、与えられた近似に対する最悪のポリシーに収束する可能性があることを示す例を示す。
論文 参考訳(メタデータ) (2020-10-28T22:57:57Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Variational Policy Gradient Method for Reinforcement Learning with
General Utilities [38.54243339632217]
近年,累積報酬の合計を超える総合目標を持つ強化学習システムが注目を集めている。
本稿では,一般的な凹凸ユーティリティ関数を対象とする決定問題におけるポリシーについて考察する。
汎用性を持つRLの新しい変分ポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2020-07-04T17:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。