論文の概要: Deep Q-Learning: Theoretical Insights from an Asymptotic Analysis
- arxiv url: http://arxiv.org/abs/2008.10870v2
- Date: Mon, 12 Apr 2021 08:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 02:50:12.702065
- Title: Deep Q-Learning: Theoretical Insights from an Asymptotic Analysis
- Title(参考訳): 深層Q-Learning:漸近分析からの理論的考察
- Authors: Arunselvan Ramaswamy, Eyke H\"ullermeier
- Abstract要約: ディープQラーニングは、よく知られたQ関数を近似するためにディープニューラルネットワークをトレーニングする、重要な強化学習アルゴリズムである。
実験室では非常に成功したが、理論と実践の深刻なギャップと正式な保証の欠如が現実世界での使用を妨げている。
本稿では、現実的な検証可能な仮定の下で、Deep Q-Learningの一般的なバージョンに関する理論的解析を行う。
- 参考スコア(独自算出の注目度): 3.9871041399267613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Q-Learning is an important reinforcement learning algorithm, which
involves training a deep neural network, called Deep Q-Network (DQN), to
approximate the well-known Q-function. Although wildly successful under
laboratory conditions, serious gaps between theory and practice as well as a
lack of formal guarantees prevent its use in the real world. Adopting a
dynamical systems perspective, we provide a theoretical analysis of a popular
version of Deep Q-Learning under realistic and verifiable assumptions. More
specifically, we prove an important result on the convergence of the algorithm,
characterizing the asymptotic behavior of the learning process. Our result
sheds light on hitherto unexplained properties of the algorithm and helps
understand empirical observations, such as performance inconsistencies even
after training. Unlike previous theories, our analysis accommodates state
Markov processes with multiple stationary distributions. In spite of the focus
on Deep Q-Learning, we believe that our theory may be applied to understand
other deep learning algorithms
- Abstract(参考訳): Deep Q-Learningは、Deep Q-Network(DQN)と呼ばれるディープニューラルネットワークのトレーニングを含む、重要な強化学習アルゴリズムである。
実験室では非常に成功したが、理論と実践の深刻なギャップと正式な保証の欠如が現実世界での使用を妨げている。
動的システムの観点から、現実的で検証可能な仮定の下で、人気のあるDeep Q-Learningの理論的解析を行う。
より具体的には、学習プロセスの漸近的挙動を特徴付けるアルゴリズムの収束に関する重要な結果を証明する。
その結果,アルゴリズムの非説明特性に光を当て,訓練後の性能不整合などの経験的観察の理解を支援する。
従来の理論とは異なり、我々は複数の定常分布を持つ状態マルコフ過程を解析する。
深層Q-Learningに焦点が当てられているにもかかわらず、我々の理論は他の深層学習アルゴリズムを理解するために応用できると考えている。
関連論文リスト
- Lifting the Veil: Unlocking the Power of Depth in Q-learning [31.700583180829106]
深層Q-ラーニングは、オペレーションリサーチとマネジメントサイエンスで広く使われている。
本稿では,深部Q-ラーニングにおける深部Q-ラーニングのパワーを理論的に検証する。
論文 参考訳(メタデータ) (2023-10-27T06:15:33Z) - On the Convergence and Sample Complexity Analysis of Deep Q-Networks
with $\epsilon$-Greedy Exploration [86.71396285956044]
本稿では,深層強化学習における$varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
論文 参考訳(メタデータ) (2023-10-24T20:37:02Z) - Operator Learning Meets Numerical Analysis: Improving Neural Networks
through Iterative Methods [2.226971382808806]
演算子方程式の反復的手法に基づく理論的枠組みを開発する。
拡散モデルやAlphaFoldのような一般的なアーキテクチャは本質的に反復的演算子学習を採用していることを実証する。
本研究の目的は,数値解析から洞察を融合させることにより,ディープラーニングの理解を深めることである。
論文 参考訳(メタデータ) (2023-10-02T20:25:36Z) - The Unreasonable Effectiveness of Deep Evidential Regression [72.30888739450343]
不確実性を考慮した回帰ベースニューラルネットワーク(NN)による新しいアプローチは、従来の決定論的手法や典型的なベイズ的NNよりも有望であることを示している。
我々は、理論的欠点を詳述し、合成および実世界のデータセットのパフォーマンスを分析し、Deep Evidential Regressionが正確な不確実性ではなく定量化であることを示す。
論文 参考訳(メタデータ) (2022-05-20T10:10:32Z) - Uncovering Instabilities in Variational-Quantum Deep Q-Networks [0.0]
変動量子深度Q-networks (VQ-DQN) は、学習ポリシーが分岐する不安定な状態にあることを示す。
我々は、実量子処理ユニット(IBM量子デバイス)上でRLアルゴリズムを実行し、シミュレーションされた量子システムと物理量子システムの振る舞いの違いを調査する。
論文 参考訳(メタデータ) (2022-02-10T17:52:44Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - Error Bounds for a Matrix-Vector Product Approximation with Deep ReLU
Neural Networks [0.0]
深層学習の理論は、深層学習指向の深さと発達の広さの理論を刺激した。
深部修正線形単位(ReLU)フィードフォワードニューラルネットワーク(FNN)を用いて任意の行列ベクトル積を正確に近似できるのか?
我々は、発達した深部近似理論を構成するルベーグノルムとソボレフノルムの誤差境界を導出する。
先進的な理論は、新たな教師学生AIやMLパラダイムの観点から、教師の深いReLU FNNの指導と緩和にも適用できる。
論文 参考訳(メタデータ) (2021-11-25T08:14:55Z) - Credit Assignment in Neural Networks through Deep Feedback Control [59.14935871979047]
ディープフィードバックコントロール(Deep Feedback Control, DFC)は、フィードバックコントローラを使用して、望ましい出力ターゲットにマッチするディープニューラルネットワークを駆動し、クレジット割り当てに制御信号を使用する新しい学習方法である。
学習規則は空間と時間において完全に局所的であり、幅広い接続パターンに対するガウス・ニュートンの最適化を近似する。
さらに,DFCと皮質錐体ニューロンのマルチコンパートメントモデルと,局所的な電圧依存性のシナプス可塑性規則を関連づける。
論文 参考訳(メタデータ) (2021-06-15T05:30:17Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - A Study of the Mathematics of Deep Learning [1.14219428942199]
深層学習」/「深層ニューラルネットワーク」は、人工知能の最先端のタスクにますます展開されている技術的驚異です。
この論文は、これらの新しいディープラーニングのパラダイムの強力な理論基盤を構築するためのいくつかのステップを踏む。
論文 参考訳(メタデータ) (2021-04-28T22:05:54Z) - A Theoretical Framework for Target Propagation [75.52598682467817]
我々は、バックプロパゲーション(BP)の代替として人気があるが、まだ完全には理解されていないターゲット伝搬(TP)を解析する。
提案理論は,TPがガウス・ニュートン最適化と密接に関係していることを示し,BPとは大きく異なる。
我々は,フィードバックウェイトトレーニングを改善する新しいリコンストラクション損失を通じて,この問題に対する第1の解決策を提供する。
論文 参考訳(メタデータ) (2020-06-25T12:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。