論文の概要: Universal Approximation Theorem for Deep Q-Learning via FBSDE System
- arxiv url: http://arxiv.org/abs/2505.06023v1
- Date: Fri, 09 May 2025 13:11:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.269425
- Title: Universal Approximation Theorem for Deep Q-Learning via FBSDE System
- Title(参考訳): FBSDEシステムによる深部Q-Learningの普遍近似理論
- Authors: Qian Qi,
- Abstract要約: 本稿では,Deep Q-Networks (DQN) のクラスに対する普遍近似理論を確立する。
関数空間上で作用するニューラル演算子として考えられたディープ残留ネットワークの層がベルマン作用素の作用を近似できることを示す。
- 参考スコア(独自算出の注目度): 2.1756081703276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The approximation capabilities of Deep Q-Networks (DQNs) are commonly justified by general Universal Approximation Theorems (UATs) that do not leverage the intrinsic structural properties of the optimal Q-function, the solution to a Bellman equation. This paper establishes a UAT for a class of DQNs whose architecture is designed to emulate the iterative refinement process inherent in Bellman updates. A central element of our analysis is the propagation of regularity: while the transformation induced by a single Bellman operator application exhibits regularity, for which Backward Stochastic Differential Equations (BSDEs) theory provides analytical tools, the uniform regularity of the entire sequence of value iteration iterates--specifically, their uniform Lipschitz continuity on compact domains under standard Lipschitz assumptions on the problem data--is derived from finite-horizon dynamic programming principles. We demonstrate that layers of a deep residual network, conceived as neural operators acting on function spaces, can approximate the action of the Bellman operator. The resulting approximation theorem is thus intrinsically linked to the control problem's structure, offering a proof technique wherein network depth directly corresponds to iterations of value function refinement, accompanied by controlled error propagation. This perspective reveals a dynamic systems view of the network's operation on a space of value functions.
- Abstract(参考訳): ディープQ-ネットワークス(DQN)の近似能力は、ベルマン方程式の解である最適Q-函数の内在的構造特性を利用できない一般普遍近似定理(UAT)によって、一般的に正当化される。
本稿では,ベルマン更新に固有の反復的改善過程をエミュレートしたDQNのクラスに対するUATを確立する。
バックワード確率微分方程式(BSDEs)理論は解析ツールを提供するが、値反復の列全体の一様正則性は、具体的には、有限水平動的プログラミングの原理から導かれる問題に関するデータに関する標準的なリプシッツの仮定の下でのコンパクトな領域上の一様リプシッツ連続性である。
関数空間に作用するニューラル演算子として考案されたディープ残留ネットワークの層がベルマン作用素の作用を近似できることを示す。
結果として得られる近似定理は、制御問題の構造と本質的に関連付けられており、ネットワーク深さが制御誤差の伝播を伴う値関数洗練の反復と直接対応する証明技術を提供する。
この視点は、値関数の空間上でのネットワークの動作に関する動的システムビューを明らかにする。
関連論文リスト
- Generalization Bounds and Model Complexity for Kolmogorov-Arnold Networks [1.5850926890180461]
Kolmogorov-Arnold Network (KAN)は、Liuらによって最近提案されたネットワーク構造である。
活性化関数を備えたカンの一般化境界を確立することにより、カンの厳密な理論的解析を提供する。
論文 参考訳(メタデータ) (2024-10-10T15:23:21Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Lipschitz constant estimation for 1D convolutional neural networks [0.0]
本稿では,1次元畳み込みニューラルネットワーク(CNN)のリプシッツ定数推定法を提案する。
特に, 畳み込み層, プール層および完全連結層の分散特性を解析した。
論文 参考訳(メタデータ) (2022-11-28T12:09:06Z) - Universality and approximation bounds for echo state networks with
random weights [5.310194156119441]
内部重みをランダムに生成したエコー状態ネットワークの均一近似について検討した。
近年の結果, ReLUアクティベーションを伴うエコー状態ネットワークは普遍的であることが明らかとなった。
論文 参考訳(メタデータ) (2022-06-12T05:43:16Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。