論文の概要: Approximation to Deep Q-Network by Stochastic Delay Differential Equations
- arxiv url: http://arxiv.org/abs/2505.00382v1
- Date: Thu, 01 May 2025 08:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.2663
- Title: Approximation to Deep Q-Network by Stochastic Delay Differential Equations
- Title(参考訳): 確率遅延微分方程式による深部Q-ネットの近似
- Authors: Jianya Lu, Yingjun Mo,
- Abstract要約: 本稿では,Deep Q-Networkアルゴリズムに基づく差分遅延方程式を構築し,それらの間のワッサーシュタイン-1距離を推定する。
ステップサイズが 0 に近づくと、2つの間の距離が 0 に収束することを示す。
具体的には、対象ネットワークに対応する方程式の遅延項がシステムの安定性に寄与する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the significant breakthroughs that the Deep Q-Network (DQN) has brought to reinforcement learning, its theoretical analysis remains limited. In this paper, we construct a stochastic differential delay equation (SDDE) based on the DQN algorithm and estimate the Wasserstein-1 distance between them. We provide an upper bound for the distance and prove that the distance between the two converges to zero as the step size approaches zero. This result allows us to understand DQN's two key techniques, the experience replay and the target network, from the perspective of continuous systems. Specifically, the delay term in the equation, corresponding to the target network, contributes to the stability of the system. Our approach leverages a refined Lindeberg principle and an operator comparison to establish these results.
- Abstract(参考訳): Deep Q-Network (DQN) が強化学習にもたらす大きなブレークスルーにもかかわらず、その理論的分析は限定的である。
本稿では、DQNアルゴリズムに基づく確率微分遅延方程式(SDDE)を構築し、それらの間のワッサーシュタイン-1距離を推定する。
距離の上限を与え、ステップサイズが 0 に近づくと、二つの距離が 0 に収束することを示す。
この結果、DQNの2つの重要なテクニックであるエクスペリエンス・リプレイとターゲットネットワークを、継続的システムの観点から理解することができます。
具体的には、対象ネットワークに対応する方程式の遅延項がシステムの安定性に寄与する。
提案手法はリンデベルク法則と演算子比較を利用してこれらの結果を確立する。
関連論文リスト
- Physics-informed reduced order model with conditional neural fields [4.5355909674008865]
本研究では、パラメータ化偏微分方程式(PDE)の解を近似するために、低次モデリング(CNF-ROM)フレームワークのための条件付きニューラルネットワークを提案する。
このアプローチは、潜伏状態からPDEソリューションを再構成するデコーダと、時間とともに潜伏ダイナミクスをモデル化するためのパラメトリックニューラルネットワークODEを組み合わせる。
論文 参考訳(メタデータ) (2024-12-06T18:04:33Z) - Correctness Verification of Neural Networks Approximating Differential
Equations [0.0]
ニューラルネットワーク(NN)は部分微分方程式(PDE)の解を近似する
NNはシミュレーションソフトウェアツールの不可欠な部分となり、複雑な動的システムのシミュレーションを100回以上加速することができる。
この研究は、NN微分を有限差分近似として定義することにより、これらの関数の検証に対処する。
初めて、出力領域の事前知識のないNN関数のバウンダリング問題に取り組む。
論文 参考訳(メタデータ) (2024-02-12T12:55:35Z) - On the Convergence and Sample Complexity Analysis of Deep Q-Networks
with $\epsilon$-Greedy Exploration [86.71396285956044]
本稿では,深層強化学習における$varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
論文 参考訳(メタデータ) (2023-10-24T20:37:02Z) - Tunable Complexity Benchmarks for Evaluating Physics-Informed Neural
Networks on Coupled Ordinary Differential Equations [64.78260098263489]
本研究では,より複雑に結合した常微分方程式(ODE)を解く物理インフォームドニューラルネットワーク(PINN)の能力を評価する。
PINNの複雑性が増大するにつれて,これらのベンチマークに対する正しい解が得られないことが示される。
PINN損失のラプラシアンは,ネットワーク容量の不足,ODEの条件の低下,局所曲率の高さなど,いくつかの理由を明らかにした。
論文 参考訳(メタデータ) (2022-10-14T15:01:32Z) - Neural Basis Functions for Accelerating Solutions to High Mach Euler
Equations [63.8376359764052]
ニューラルネットワークを用いた偏微分方程式(PDE)の解法を提案する。
ニューラルネットワークの集合を縮小順序 Proper Orthogonal Decomposition (POD) に回帰する。
これらのネットワークは、所定のPDEのパラメータを取り込み、PDEに還元順序近似を計算する分岐ネットワークと組み合わせて使用される。
論文 参考訳(メタデータ) (2022-08-02T18:27:13Z) - Unified Field Theory for Deep and Recurrent Neural Networks [56.735884560668985]
本稿では,再帰的ネットワークと深層ネットワークの両方に対する平均場理論の統一的,体系的な導出について述べる。
平均場理論への収束は、ディープネットワークよりもリカレントネットワークの方が典型的に遅い。
提案手法はガウス過程が1/n$の体系的展開の最下位次数であることを示す。
論文 参考訳(メタデータ) (2021-12-10T15:06:11Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - FiniteNet: A Fully Convolutional LSTM Network Architecture for
Time-Dependent Partial Differential Equations [0.0]
我々は、PDEのダイナミクスを利用するために、完全に畳み込みLSTMネットワークを使用する。
ベースラインアルゴリズムと比較して,ネットワークの誤差を2~3倍に削減できることを示す。
論文 参考訳(メタデータ) (2020-02-07T21:18:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。