論文の概要: Universal Approximation Theorem of Deep Q-Networks
- arxiv url: http://arxiv.org/abs/2505.02288v1
- Date: Sun, 04 May 2025 22:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.53279
- Title: Universal Approximation Theorem of Deep Q-Networks
- Title(参考訳): 深部Q-Networksの普遍近似理論
- Authors: Qian Qi,
- Abstract要約: 我々は制御とFBSDE(Forward-Backward Differential Equations)を通してDeep Q-Networks(DQN)の分析を行う。
DQN は任意の精度と高い確率でコンパクト集合上の最適Q-函数を近似できることを示す。
この作業は、深い強化学習とコントロールをブリッジし、継続的設定でDQNに関する洞察を提供する。
- 参考スコア(独自算出の注目度): 2.1756081703276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We establish a continuous-time framework for analyzing Deep Q-Networks (DQNs) via stochastic control and Forward-Backward Stochastic Differential Equations (FBSDEs). Considering a continuous-time Markov Decision Process (MDP) driven by a square-integrable martingale, we analyze DQN approximation properties. We show that DQNs can approximate the optimal Q-function on compact sets with arbitrary accuracy and high probability, leveraging residual network approximation theorems and large deviation bounds for the state-action process. We then analyze the convergence of a general Q-learning algorithm for training DQNs in this setting, adapting stochastic approximation theorems. Our analysis emphasizes the interplay between DQN layer count, time discretization, and the role of viscosity solutions (primarily for the value function $V^*$) in addressing potential non-smoothness of the optimal Q-function. This work bridges deep reinforcement learning and stochastic control, offering insights into DQNs in continuous-time settings, relevant for applications with physical systems or high-frequency data.
- Abstract(参考訳): 確率制御とフォワード後方確率微分方程式(FBSDEs)を用いてディープQ-Networks(DQNs)を解析するための連続時間フレームワークを構築した。
正方形積分可能なマーチンゲールによって駆動される連続時間マルコフ決定過程(MDP)を考慮し、DQN近似特性を解析する。
DQNは任意の精度と高い確率でコンパクト集合上の最適Q-函数を近似することができ、残差ネットワーク近似定理と状態-作用過程に対する大きな偏差境界を利用する。
次に、この設定でDQNを学習するための一般的なQ-ラーニングアルゴリズムの収束を解析し、確率近似定理を適用する。
本分析では, DQN 層数, 時間離散化, 粘度解(主に値関数 $V^*$) の相互作用に着目し, 最適Q-関数の非滑らか性に対処する。
この作業は、深層強化学習と確率的制御を橋渡しし、物理システムや高周波データを含むアプリケーションに関連する、連続的な時間設定におけるDQNに関する洞察を提供する。
関連論文リスト
- Approximation to Deep Q-Network by Stochastic Delay Differential Equations [0.0]
本稿では,Deep Q-Networkアルゴリズムに基づく差分遅延方程式を構築し,それらの間のワッサーシュタイン-1距離を推定する。
ステップサイズが 0 に近づくと、2つの間の距離が 0 に収束することを示す。
具体的には、対象ネットワークに対応する方程式の遅延項がシステムの安定性に寄与する。
論文 参考訳(メタデータ) (2025-05-01T08:19:24Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - On the Convergence and Sample Complexity Analysis of Deep Q-Networks
with $\epsilon$-Greedy Exploration [86.71396285956044]
本稿では,深層強化学習における$varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
論文 参考訳(メタデータ) (2023-10-24T20:37:02Z) - An Analysis of Quantile Temporal-Difference Learning [53.36758478669685]
量子時間差学習(QTD)は、強化学習の大規模応用において重要な要素であることが証明されている。
古典的なTD学習とは異なり、QTD更新は縮小写像を近似せず、非常に非線形であり、複数の固定点を持つ。
本稿では,確率 1 の動的プログラミング手順の関連ファミリの固定点への収束の証明である。
論文 参考訳(メタデータ) (2023-01-11T13:41:56Z) - Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time
Systems with Lipschitz Continuous Controls [2.922007656878633]
リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するQ-learningアルゴリズムを提案する。
HJB方程式の新たな半離散バージョンが提案され、離散時間で収集されたデータを用いて、システムの力学を離散化したり近似したりすることなく、Q-ラーニングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-27T06:11:04Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。