論文の概要: Neural Actor-Critic Methods for Hamilton-Jacobi-Bellman PDEs: Asymptotic Analysis and Numerical Studies
- arxiv url: http://arxiv.org/abs/2507.06428v1
- Date: Tue, 08 Jul 2025 22:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.407335
- Title: Neural Actor-Critic Methods for Hamilton-Jacobi-Bellman PDEs: Asymptotic Analysis and Numerical Studies
- Title(参考訳): ハミルトン・ヤコビ・ベルマンPDEのニューラルアクター・クリティカル法:漸近解析と数値解析
- Authors: Samuel N. Cohen, Jackson Hebner, Deqing Jiang, Justin Sirignano,
- Abstract要約: ハミルトン・ヤコビベルマン方程式を解くために,アクター・クリティカルな機械学習アルゴリズムを数学的に解析し,数値解析する。
本研究では,最大200次元の制御問題を高精度に解けることを示す。
- 参考スコア(独自算出の注目度): 3.566534591413616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We mathematically analyze and numerically study an actor-critic machine learning algorithm for solving high-dimensional Hamilton-Jacobi-Bellman (HJB) partial differential equations from stochastic control theory. The architecture of the critic (the estimator for the value function) is structured so that the boundary condition is always perfectly satisfied (rather than being included in the training loss) and utilizes a biased gradient which reduces computational cost. The actor (the estimator for the optimal control) is trained by minimizing the integral of the Hamiltonian over the domain, where the Hamiltonian is estimated using the critic. We show that the training dynamics of the actor and critic neural networks converge in a Sobolev-type space to a certain infinite-dimensional ordinary differential equation (ODE) as the number of hidden units in the actor and critic $\rightarrow \infty$. Further, under a convexity-like assumption on the Hamiltonian, we prove that any fixed point of this limit ODE is a solution of the original stochastic control problem. This provides an important guarantee for the algorithm's performance in light of the fact that finite-width neural networks may only converge to a local minimizers (and not optimal solutions) due to the non-convexity of their loss functions. In our numerical studies, we demonstrate that the algorithm can solve stochastic control problems accurately in up to 200 dimensions. In particular, we construct a series of increasingly complex stochastic control problems with known analytic solutions and study the algorithm's numerical performance on them. These problems range from a linear-quadratic regulator equation to highly challenging equations with non-convex Hamiltonians, allowing us to identify and analyze the strengths and limitations of this neural actor-critic method for solving HJB equations.
- Abstract(参考訳): 確率制御理論から高次元ハミルトン・ヤコビ・ベルマン偏微分方程式を解くためのアクター・クリティック・機械学習アルゴリズムを数学的に解析・数値研究する。
批評家(値関数推定器)のアーキテクチャは、境界条件が常に完全に満たされるように構成され(トレーニング損失に含まれるのではなく)、計算コストを低減させるバイアス勾配を利用する。
アクター(最適制御のための推定器)は、ハミルトンの積分を最小化することで訓練される。
アクターと批評家のニューラルネットワークのトレーニングダイナミクスは、ソボレフ型空間において、アクターの隠れた単位の数として、ある無限次元の常微分方程式(ODE)に収束し、批評家が$\rightarrow \infty$となることを示す。
さらに、ハミルトニアン上の凸性のような仮定の下で、この極限ODEの任意の固定点が元の確率制御問題の解であることを証明する。
このことは、有限幅ニューラルネットワークが損失関数の非凸性のために局所最小化器に収束する(最適解ではない)という事実を考慮して、アルゴリズムのパフォーマンスを重要な保証を提供する。
本研究では,最大200次元の確率的制御問題を高精度に解けることを示す。
特に、既知の解析解を用いて、より複雑な確率的制御問題を構築し、その上でのアルゴリズムの数値的性能について検討する。
これらの問題は、線形四進法則方程式から、非凸ハミルトニアンを持つ非常に挑戦的な方程式まで様々であり、HJB方程式の解法であるこのニューラルアクター批判法の強みと限界を同定し分析することができる。
関連論文リスト
- Quantum algorithm for solving nonlinear differential equations based on physics-informed effective Hamiltonians [14.379311972506791]
本稿では,量子コンピュータ上での微分方程式の解法を,実効ハミルトニアン作用素の基底状態にエンコードすることで解く方法を提案する。
我々のアルゴリズムはチェビシェフ空間におけるそのような作用素の構成に依存し、実効ハミルトニアンは大域微分とデータ制約の和である。
論文 参考訳(メタデータ) (2025-04-17T17:59:33Z) - An Iterative Deep Ritz Method for Monotone Elliptic Problems [0.29792392019703945]
楕円問題の一般的なクラスを解くための新しい反復的ディープリッツ法(IDRM)を提案する。
このアルゴリズムは単調作用素を含む楕円問題に適用できる。
バナッハ空間の幾何学と単調作用素の理論からツールを用いた手法の収束率を確立する。
論文 参考訳(メタデータ) (2025-01-25T11:50:24Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Deep Graphic FBSDEs for Opinion Dynamics Stochastic Control [27.38625075499457]
本稿では,動的・コスト関数における平均場項結合を用いた意見力学の最適制御問題の解法として,スケーラブルなディープラーニング手法を提案する。
提案したフレームワークは,超大規模問題に対する将来の応用の可能性を開く。
論文 参考訳(メタデータ) (2022-04-05T22:07:32Z) - Message Passing Neural PDE Solvers [60.77761603258397]
我々は、バックプロップ最適化されたニューラル関数近似器で、グラフのアリーデザインのコンポーネントを置き換えるニューラルメッセージパッシング解決器を構築した。
本稿では, 有限差分, 有限体積, WENOスキームなどの古典的手法を表現的に含んでいることを示す。
本研究では, 異なる領域のトポロジ, 方程式パラメータ, 離散化などにおける高速, 安定, 高精度な性能を, 1次元, 2次元で検証する。
論文 参考訳(メタデータ) (2022-02-07T17:47:46Z) - Analysis and Optimisation of Bellman Residual Errors with Neural
Function Approximation [0.0]
近年のDeep Reinforcement Learningは,大規模あるいは連続的な状態空間における課題解決において,ニューラルネットワークの優れた性能を実証している。
1つの具体的なアプローチは、Mean Squared Bellman Error関数を最小化することで、ニューラルネットワークを近似値にデプロイすることである。
論文 参考訳(メタデータ) (2021-06-16T13:35:14Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z) - Neural Control Variates [71.42768823631918]
ニューラルネットワークの集合が、積分のよい近似を見つけるという課題に直面していることを示す。
理論的に最適な分散最小化損失関数を導出し、実際に安定したオンライントレーニングを行うための代替の複合損失を提案する。
具体的には、学習した光場近似が高次バウンスに十分な品質であることを示し、誤差補正を省略し、無視可能な可視バイアスのコストでノイズを劇的に低減できることを示した。
論文 参考訳(メタデータ) (2020-06-02T11:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。