論文の概要: Does DQN Learn?
- arxiv url: http://arxiv.org/abs/2205.13617v5
- Date: Tue, 17 Jun 2025 06:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:58.97912
- Title: Does DQN Learn?
- Title(参考訳): DQNは学ぶか?
- Authors: Aditya Gopalan, Gugan Thoppe,
- Abstract要約: 数値的に、DQN(Deep Q-Network)は、初期よりも悪い性能を示すポリシーを返すことが多い。
我々はこの現象を線形DQNで理論的に説明する。
- 参考スコア(独自算出の注目度): 16.035744751431114
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A primary requirement for any reinforcement learning method is that it should produce policies that improve upon the initial guess. In this work, we show that the widely used Deep Q-Network (DQN) fails to satisfy this minimal criterion -- even when it gets to see all possible states and actions infinitely often (a condition under which tabular Q-learning is guaranteed to converge to the optimal Q-value function). Our specific contributions are twofold. First, we numerically show that DQN often returns a policy that performs worse than the initial one. Second, we offer a theoretical explanation for this phenomenon in linear DQN, a simplified version of DQN that uses linear function approximation in place of neural networks while retaining the other key components such as $\epsilon$-greedy exploration, experience replay, and target network. Using tools from differential inclusion theory, we prove that the limit points of linear DQN correspond to fixed points of projected Bellman operators. Crucially, we show that these fixed points need not relate to optimal -- or even near-optimal -- policies, thus explaining linear DQN's sub-optimal behaviors. We also give a scenario where linear DQN always identifies the worst policy. Our work fills a longstanding gap in understanding the convergence behaviors of Q-learning with function approximation and $\epsilon$-greedy exploration.
- Abstract(参考訳): 強化学習手法の第一の要件は、最初の推測により改善されるポリシーを作成することである。
この研究で、広く使われているディープQ-ネットワーク(DQN)はこの最小限の基準を満たすことができず、全ての可能な状態や動作を無限に見ることができても(表のQ-ラーニングが最適Q-値関数に収束することが保証される条件)。
具体的な貢献は2つあります。
まず、DQNは初期よりも悪いパフォーマンスのポリシーを返すことが多いことを数値的に示します。
次に、ニューラルネットワークの代わりに線形関数近似を用いるDQNの簡易版である線形DQNにおいて、この現象に関する理論的説明を提供する。
微分包含理論のツールを用いて、線型DQNの極限点が射影ベルマン作用素の固定点に対応することを証明する。
重要なことは、これらの固定点が最適(もしくはほぼ最適)ポリシーに関係しないことを示し、従って線形DQNの準最適挙動を説明する。
また、線形DQNが常に最悪のポリシーを識別するシナリオも提供します。
我々の研究は、Q-ラーニングの収束行動を理解するための長年のギャップを、関数近似と$\epsilon$-greedyの探索で埋めている。
関連論文リスト
- On the Convergence and Sample Complexity Analysis of Deep Q-Networks
with $\epsilon$-Greedy Exploration [86.71396285956044]
本稿では,深層強化学習における$varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
論文 参考訳(メタデータ) (2023-10-24T20:37:02Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - Sampling Efficient Deep Reinforcement Learning through Preference-Guided
Stochastic Exploration [8.612437964299414]
我々は、Deep Q-network (DQN) のための選好誘導$epsilon$-greedy探索アルゴリズムを提案する。
選好誘導探索はDQNエージェントの多様な行動、すなわちより大きなQ値のアクションをより頻繁にサンプリングできるのに対して、より小さなQ値のアクションは依然として探索可能な機会を持ち、探索を促進することを示している。
論文 参考訳(メタデータ) (2022-06-20T08:23:49Z) - Mildly Conservative Q-Learning for Offline Reinforcement Learning [63.2183622958666]
オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。
既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。
我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
論文 参考訳(メタデータ) (2022-06-09T19:44:35Z) - Can Q-learning solve Multi Armed Bantids? [0.0]
現在の強化学習アルゴリズムでは,マルチアーマッド・バンディット問題を解くことができないことを示す。
これはポリシー間の差異が原因であり、2つの問題を引き起こす。
本稿では,アダプティブ・シンメトリ・リワード・ノーミング(ASRN)手法を提案する。
論文 参考訳(メタデータ) (2021-10-21T07:08:30Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - A Convergent and Efficient Deep Q Network Algorithm [3.553493344868414]
深部Qネットワーク(DQN)強化学習アルゴリズムは,現実的な環境での動作を多様化し,停止することができることを示す。
本稿では,DQNを慎重に修正した収束DQNアルゴリズム(C-DQN)を提案する。
難しい環境でしっかりと学習し、Atari 2600ベンチマークでいくつかの難しいゲームを学ぶことができる。
論文 参考訳(メタデータ) (2021-06-29T13:38:59Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。