論文の概要: Universal Approximation Theorem for Deep Q-Learning via FBSDE System
- arxiv url: http://arxiv.org/abs/2505.06023v1
- Date: Fri, 09 May 2025 13:11:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.269425
- Title: Universal Approximation Theorem for Deep Q-Learning via FBSDE System
- Title(参考訳): FBSDEシステムによる深部Q-Learningの普遍近似理論
- Authors: Qian Qi,
- Abstract要約: 本稿では,Deep Q-Networks (DQN) のクラスに対する普遍近似理論を確立する。
関数空間上で作用するニューラル演算子として考えられたディープ残留ネットワークの層がベルマン作用素の作用を近似できることを示す。
- 参考スコア(独自算出の注目度): 2.1756081703276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The approximation capabilities of Deep Q-Networks (DQNs) are commonly justified by general Universal Approximation Theorems (UATs) that do not leverage the intrinsic structural properties of the optimal Q-function, the solution to a Bellman equation. This paper establishes a UAT for a class of DQNs whose architecture is designed to emulate the iterative refinement process inherent in Bellman updates. A central element of our analysis is the propagation of regularity: while the transformation induced by a single Bellman operator application exhibits regularity, for which Backward Stochastic Differential Equations (BSDEs) theory provides analytical tools, the uniform regularity of the entire sequence of value iteration iterates--specifically, their uniform Lipschitz continuity on compact domains under standard Lipschitz assumptions on the problem data--is derived from finite-horizon dynamic programming principles. We demonstrate that layers of a deep residual network, conceived as neural operators acting on function spaces, can approximate the action of the Bellman operator. The resulting approximation theorem is thus intrinsically linked to the control problem's structure, offering a proof technique wherein network depth directly corresponds to iterations of value function refinement, accompanied by controlled error propagation. This perspective reveals a dynamic systems view of the network's operation on a space of value functions.
- Abstract(参考訳): ディープQ-ネットワークス(DQN)の近似能力は、ベルマン方程式の解である最適Q-函数の内在的構造特性を利用できない一般普遍近似定理(UAT)によって、一般的に正当化される。
本稿では,ベルマン更新に固有の反復的改善過程をエミュレートしたDQNのクラスに対するUATを確立する。
バックワード確率微分方程式(BSDEs)理論は解析ツールを提供するが、値反復の列全体の一様正則性は、具体的には、有限水平動的プログラミングの原理から導かれる問題に関するデータに関する標準的なリプシッツの仮定の下でのコンパクトな領域上の一様リプシッツ連続性である。
関数空間に作用するニューラル演算子として考案されたディープ残留ネットワークの層がベルマン作用素の作用を近似できることを示す。
結果として得られる近似定理は、制御問題の構造と本質的に関連付けられており、ネットワーク深さが制御誤差の伝播を伴う値関数洗練の反復と直接対応する証明技術を提供する。
この視点は、値関数の空間上でのネットワークの動作に関する動的システムビューを明らかにする。
関連論文リスト
- Contraction, Criticality, and Capacity: A Dynamical-Systems Perspective on Echo-State Networks [13.857230672081489]
本稿では,機能解析,ランダム・アトラクタ理論,最近の神経科学的な知見を融合した統合的動的システム治療について述べる。
まず,大域リプシッツ力学とともにエコー状態特性(初期条件の洗い出し)がフェーディングメモリ特性をもたらすことを証明した。
第二に、ストーン・ワイエルシュトラスの戦略を用いて、非線形貯水池と線形リードアウトを持つESNが、因果的、タイムイン・フェイディング・メモリ・フィルタのバナッハ空間に密着していることを示す。
第3に、メモリ容量スペクトルを用いて計算資源を定量化し、どのように示すかを示す。
論文 参考訳(メタデータ) (2025-07-24T14:41:18Z) - Spectral Bellman Method: Unifying Representation and Exploration in RL [54.71169912483302]
この研究は、価値に基づく強化学習のための表現を学習するための新しいフレームワークであるSpectral Bellman Representationを紹介する。
ベルマン力学と特徴共分散を整合させることにより,学習した表現が構造化された探索を可能にすることを示す。
我々のフレームワークは、自然に強力なマルチステップベルマン演算子に拡張され、その影響をさらに拡大します。
論文 参考訳(メタデータ) (2025-07-17T14:50:52Z) - Neural Expectation Operators [2.1756081703276]
本稿では,非線形予測によるあいまいさをモデル化するためのパラダイムであるtextbfMeasure Learningを紹介する。
我々はニューラル期待演算子を、ドライバがニューラルネットワークによってパラメータ化される後方微分方程式(BSDEs)の解として定義する。
本稿では,建築設計による凸性などの重要な公理特性の強化のための建設的手法を提案する。
論文 参考訳(メタデータ) (2025-07-13T06:19:28Z) - Neural Hamiltonian Operator [2.1756081703276]
従来の動的プログラミングの代替としてポントリャーギンの最大原理(PMP)がある。
そこで本稿では,textbfNeural Hamiltonian Operator (NHO) の定義により,このような問題をディープラーニングで解くための形式的枠組みを提案する。
PMPによって規定される一貫性条件を強制するために、基礎となるネットワークをトレーニングすることで、最適なNHOを見つける方法を示す。
論文 参考訳(メタデータ) (2025-07-02T02:56:49Z) - Generalization Bounds and Model Complexity for Kolmogorov-Arnold Networks [1.5850926890180461]
Kolmogorov-Arnold Network (KAN)は、Liuらによって最近提案されたネットワーク構造である。
活性化関数を備えたカンの一般化境界を確立することにより、カンの厳密な理論的解析を提供する。
論文 参考訳(メタデータ) (2024-10-10T15:23:21Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Lipschitz constant estimation for 1D convolutional neural networks [0.0]
本稿では,1次元畳み込みニューラルネットワーク(CNN)のリプシッツ定数推定法を提案する。
特に, 畳み込み層, プール層および完全連結層の分散特性を解析した。
論文 参考訳(メタデータ) (2022-11-28T12:09:06Z) - Universality and approximation bounds for echo state networks with
random weights [5.310194156119441]
内部重みをランダムに生成したエコー状態ネットワークの均一近似について検討した。
近年の結果, ReLUアクティベーションを伴うエコー状態ネットワークは普遍的であることが明らかとなった。
論文 参考訳(メタデータ) (2022-06-12T05:43:16Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。