論文の概要: Weak Convergence Analysis of Online Neural Actor-Critic Algorithms
- arxiv url: http://arxiv.org/abs/2403.16825v1
- Date: Mon, 25 Mar 2024 14:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:54:11.391013
- Title: Weak Convergence Analysis of Online Neural Actor-Critic Algorithms
- Title(参考訳): オンラインニューラルアクター臨界アルゴリズムの弱収束解析
- Authors: Samuel Chun-Hei Lam, Justin Sirignano, Ziheng Wang,
- Abstract要約: オンラインアクター批判アルゴリズムでは、モデルの更新に伴ってデータサンプルの分布が動的に変化する。
本研究では,アクターニューラルネットワークと批評家ニューラルネットワークが,ランダムな初期条件を持つODEシステムの解に収束していることを証明する。
- 参考スコア(独自算出の注目度): 5.769172579648919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We prove that a single-layer neural network trained with the online actor critic algorithm converges in distribution to a random ordinary differential equation (ODE) as the number of hidden units and the number of training steps $\rightarrow \infty$. In the online actor-critic algorithm, the distribution of the data samples dynamically changes as the model is updated, which is a key challenge for any convergence analysis. We establish the geometric ergodicity of the data samples under a fixed actor policy. Then, using a Poisson equation, we prove that the fluctuations of the model updates around the limit distribution due to the randomly-arriving data samples vanish as the number of parameter updates $\rightarrow \infty$. Using the Poisson equation and weak convergence techniques, we prove that the actor neural network and critic neural network converge to the solutions of a system of ODEs with random initial conditions. Analysis of the limit ODE shows that the limit critic network will converge to the true value function, which will provide the actor an asymptotically unbiased estimate of the policy gradient. We then prove that the limit actor network will converge to a stationary point.
- Abstract(参考訳): オンラインアクター批判アルゴリズムを用いてトレーニングされた単一層ニューラルネットワークは、隠れた単位数とトレーニングステップ数$\rightarrow \infty$としてランダムな常微分方程式(ODE)に分布することを示した。
オンラインアクター批判アルゴリズムでは、モデルが更新されるとデータサンプルの分布が動的に変化する。
固定されたアクターポリシーの下でデータサンプルの幾何学的エルゴディディティを確立する。
そして、ポアソン方程式を用いて、パラメータの更新数が$\rightarrow \infty$ となると、ランダムに到着するデータサンプルによる極限分布の周りのモデルのゆらぎが消えることを証明する。
ポアソン方程式と弱収束法を用いて、アクターニューラルネットワークと批評家ニューラルネットワークがランダムな初期条件を持つODE系の解に収束することを証明した。
制限ODEの分析は、制限批評家ネットワークが真の値関数に収束し、アクターに漸近的に偏りのないポリシー勾配の推定を与えることを示している。
次に、制限されたアクターネットワークが定常点に収束することを証明する。
関連論文リスト
- An Optimal Transport Approach for Network Regression [0.6238182916866519]
我々は、Fr'echet平均に基づく距離空間上の一般化回帰モデルにおける最近の発展の上に構築する。
本稿では,ワッサーシュタイン計量を用いたネットワーク回帰手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T02:03:07Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimiax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Kernel Limit of Recurrent Neural Networks Trained on Ergodic Data Sequences [0.0]
我々は、リカレントニューラルネットワーク(RNN)の接点を、隠されたユニットの数、シーケンス内のデータサンプル、隠された状態更新、トレーニングステップを同時に無限に成長させるものとして特徴づける。
これらの手法は、データサンプルの数とニューラルネットワークのサイズが無限に増加するにつれて、データシーケンスに基づいてトレーニングされたRNNのニューラルネットワーク(NTK)制限を引き起こす。
論文 参考訳(メタデータ) (2023-08-28T13:17:39Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - On the Dynamics of Inference and Learning [0.0]
本稿では,このベイズ更新過程を連続力学系として扱う。
クラムラーラオ境界が飽和すると、学習率は単純な1/T$パワーローによって制御されることを示す。
論文 参考訳(メタデータ) (2022-04-19T18:04:36Z) - An application of the splitting-up method for the computation of a
neural network representation for the solution for the filtering equations [68.8204255655161]
フィルタ方程式は、数値天気予報、金融、工学など、多くの現実の応用において中心的な役割を果たす。
フィルタリング方程式の解を近似する古典的なアプローチの1つは、分割法と呼ばれるPDEにインスパイアされた方法を使うことである。
我々はこの手法をニューラルネットワーク表現と組み合わせて、信号プロセスの非正規化条件分布の近似を生成する。
論文 参考訳(メタデータ) (2022-01-10T11:01:36Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - Global Convergence of the ODE Limit for Online Actor-Critic Algorithms
in Reinforcement Learning [7.65995376636176]
アクター批判アルゴリズムは強化学習に広く用いられているが、オンラインデータサンプルの到着により数学的解析が困難である。
時間的再スケーリングにより,オンラインアクター批判アルゴリズムは,更新数が大きくなるにつれて,通常の微分方程式(ODE)に収束することが証明された。
我々の収束分析はアクター・クリティカル・アルゴリズムの学習率と探索率に比例するものであり、実際にアクター・クリティカル・アルゴリズムを実装するためのガイダンスを提供することができる。
論文 参考訳(メタデータ) (2021-08-19T12:37:58Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Tight Nonparametric Convergence Rates for Stochastic Gradient Descent
under the Noiseless Linear Model [0.0]
このモデルに基づく最小二乗リスクに対する1パス, 固定段差勾配勾配の収束度を解析した。
特殊な場合として、ランダムなサンプリング点における値のノイズのない観測から単位区間上の実関数を推定するオンラインアルゴリズムを解析する。
論文 参考訳(メタデータ) (2020-06-15T08:25:50Z) - Non-asymptotic Convergence Analysis of Two Time-scale (Natural)
Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。
2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。
我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文 参考訳(メタデータ) (2020-05-07T15:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。