論文の概要: Deep neural networks can provably solve Bellman equations for Markov decision processes without the curse of dimensionality
- arxiv url: http://arxiv.org/abs/2506.22851v1
- Date: Sat, 28 Jun 2025 11:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.601501
- Title: Deep neural networks can provably solve Bellman equations for Markov decision processes without the curse of dimensionality
- Title(参考訳): ディープニューラルネットワークは、次元の呪いなしにマルコフ決定過程のベルマン方程式を確実に解くことができる
- Authors: Arnulf Jentzen, Konrad Kleinberg, Thomas Kruse,
- Abstract要約: 離散時間最適制御問題と漏洩決定プロセス(MDP)は、不確実性の下でのシーケンシャルな意思決定の基本的なモデルである。
本稿では、無限時間地平線と有限制御セット$A$を持つMDPに関連する$Q$関数に対するディープニューラルネットワーク(DNN)近似を構築する。
- 参考スコア(独自算出の注目度): 3.6185342807265415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete time stochastic optimal control problems and Markov decision processes (MDPs) are fundamental models for sequential decision-making under uncertainty and as such provide the mathematical framework underlying reinforcement learning theory. A central tool for solving MDPs is the Bellman equation and its solution, the so-called $Q$-function. In this article, we construct deep neural network (DNN) approximations for $Q$-functions associated to MDPs with infinite time horizon and finite control set $A$. More specifically, we show that if the the payoff function and the random transition dynamics of the MDP can be suitably approximated by DNNs with leaky rectified linear unit (ReLU) activation, then the solutions $Q_d\colon \mathbb R^d\to \mathbb R^{|A|}$, $d\in \mathbb{N}$, of the associated Bellman equations can also be approximated in the $L^2$-sense by DNNs with leaky ReLU activation whose numbers of parameters grow at most polynomially in both the dimension $d\in \mathbb{N}$ of the state space and the reciprocal $1/\varepsilon$ of the prescribed error $\varepsilon\in (0,1)$. Our proof relies on the recently introduced full-history recursive multilevel fixed-point (MLFP) approximation scheme.
- Abstract(参考訳): 離散時間確率的最適制御問題とマルコフ決定過程(MDP)は、不確実性の下での逐次決定のための基本モデルであり、強化学習理論の基礎となる数学的枠組みを提供する。
MDPを解く中心的なツールはベルマン方程式とその解であり、いわゆる$Q$-函数である。
本稿では、無限時間地平線と有限制御セット$A$を持つMDPに関連する$Q$関数に対するディープニューラルネットワーク(DNN)近似を構築する。
より具体的には、MDPのペイオフ関数とランダム遷移ダイナミクスがリーク正則線型単位(ReLU)アクティベーションを持つDNNによって適切に近似できるならば、関連するベルマン方程式の解 $Q_d\colon \mathbb R^d\to \mathbb R^{|A|}$, $d\in \mathbb{N}$, $d\in \mathbb{N}$, $d\in \mathbb{N}$ もまた、リークReLUアクティベーションを持つDNNによって近似され、パラメータの数は、状態空間の次元 $d\in \mathbb{N}$ と、所定の誤差 $/\varepsilon$ の両方において最も多項式的に増加する。
我々の証明は、最近導入されたフルヒストリー・リカーシブ・マルチレベル固定点(MLFP)近似法に依存している。
関連論文リスト
- $p$-Adic Polynomial Regression as Alternative to Neural Network for Approximating $p$-Adic Functions of Many Variables [55.2480439325792]
任意の精度で連続関数を近似できる回帰モデルを構築している。
提案モデルは、ニューラルネットワークアーキテクチャに基づく$p$-adicモデルの簡単な代替と見なすことができる。
論文 参考訳(メタデータ) (2025-03-30T15:42:08Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Deep neural networks with ReLU, leaky ReLU, and softplus activation provably overcome the curse of dimensionality for Kolmogorov partial differential equations with Lipschitz nonlinearities in the $L^p$-sense [3.0874677990361246]
我々は、ディープニューラルネットワーク(DNN)が、次元の呪い(COD)を伴わずにPDE解を近似する表現力を持っていることを示す。
この成果を一般化するためにこの研究の重要な貢献は、$pin(0,infty)$で$Lp$-senseでこのステートメントを確立することである。
論文 参考訳(メタデータ) (2023-09-24T18:58:18Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Gradient-Free Methods for Deterministic and Stochastic Nonsmooth
Nonconvex Optimization [94.19177623349947]
非滑らかな非最適化問題は、機械学習とビジネス製造に現れる。
2つのコア課題は、有限収束を保証する効率的な方法の開発を妨げる。
GFMとSGFMの2相版も提案され, 改良された大規模評価結果が得られた。
論文 参考訳(メタデータ) (2022-09-12T06:53:24Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。