論文の概要: Global Convergence of the ODE Limit for Online Actor-Critic Algorithms
in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2108.08655v2
- Date: Mon, 18 Sep 2023 21:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 21:01:11.096524
- Title: Global Convergence of the ODE Limit for Online Actor-Critic Algorithms
in Reinforcement Learning
- Title(参考訳): 強化学習におけるオンラインアクタ-クリティックアルゴリズムのode限界のグローバル収束
- Authors: Ziheng Wang and Justin Sirignano
- Abstract要約: アクター批判アルゴリズムは強化学習に広く用いられているが、オンラインデータサンプルの到着により数学的解析が困難である。
時間的再スケーリングにより,オンラインアクター批判アルゴリズムは,更新数が大きくなるにつれて,通常の微分方程式(ODE)に収束することが証明された。
我々の収束分析はアクター・クリティカル・アルゴリズムの学習率と探索率に比例するものであり、実際にアクター・クリティカル・アルゴリズムを実装するためのガイダンスを提供することができる。
- 参考スコア(独自算出の注目度): 7.65995376636176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Actor-critic algorithms are widely used in reinforcement learning, but are
challenging to mathematically analyse due to the online arrival of non-i.i.d.
data samples. The distribution of the data samples dynamically changes as the
model is updated, introducing a complex feedback loop between the data
distribution and the reinforcement learning algorithm. We prove that, under a
time rescaling, the online actor-critic algorithm with tabular parametrization
converges to an ordinary differential equation (ODE) as the number of updates
becomes large. The proof first establishes the geometric ergodicity of the data
samples under a fixed actor policy. Then, using a Poisson equation, we prove
that the fluctuations of the data samples around a dynamic probability measure,
which is a function of the evolving actor model, vanish as the number of
updates become large. Once the ODE limit has been derived, we study its
convergence properties using a two time-scale analysis which asymptotically
de-couples the critic ODE from the actor ODE. The convergence of the critic to
the solution of the Bellman equation and the actor to the optimal policy are
proven. In addition, a convergence rate to this global minimum is also
established. Our convergence analysis holds under specific choices for the
learning rates and exploration rates in the actor-critic algorithm, which could
provide guidance for the implementation of actor-critic algorithms in practice.
- Abstract(参考訳): アクター批判アルゴリズムは強化学習に広く用いられているが、オンラインデータサンプルの到着により数学的解析が困難である。
データサンプルの分布はモデルが更新されると動的に変化し、データ分布と強化学習アルゴリズムの間の複雑なフィードバックループが導入された。
時間的再スケーリングにより,表層パラメトリゼーションを伴うオンラインアクター批判アルゴリズムは,更新数が大きくなるにつれて通常の微分方程式(ODE)に収束することが証明された。
この証明はまず、固定されたアクターポリシーの下でデータサンプルの幾何学的エルゴディク性を確立する。
次に,poisson方程式を用いて,進化するアクターモデルの関数である動的確率測度周辺のデータサンプルのゆらぎが,更新数が大きくなるにつれて消失することを示す。
ODE制限が導出されると、アクターODEから批評家ODEを漸近的に分離する2つの時間スケール解析を用いて収束特性を研究する。
ベルマン方程式の解に対する批評家の収束と最適な政策へのアクターの収束が証明される。
また、このグローバル最小値への収束率も設定されている。
我々の収束分析はアクター批判アルゴリズムの学習率と探索率に対して特定の選択を下し、実際にアクター批判アルゴリズムを実装するためのガイダンスを提供することができる。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Weak Convergence Analysis of Online Neural Actor-Critic Algorithms [5.769172579648919]
オンラインアクター批判アルゴリズムでは、モデルの更新に伴ってデータサンプルの分布が動的に変化する。
本研究では,アクターニューラルネットワークと批評家ニューラルネットワークが,ランダムな初期条件を持つODEシステムの解に収束していることを証明する。
論文 参考訳(メタデータ) (2024-03-25T14:49:01Z) - A Geometric Perspective on Diffusion Models [57.27857591493788]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングについて検討する。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - Implementation and (Inverse Modified) Error Analysis for
implicitly-templated ODE-nets [0.0]
我々は,暗黙的な数値初期値問題解法に基づいてテンプレート化されたODE-netを用いてデータから未知のダイナミクスを学習することに焦点を当てた。
我々は,非ロール型暗黙的スキームを用いて,ODE-netの逆修正誤り解析を行い,解釈を容易にする。
我々は,誤差のレベルを監視し,暗黙的な解反復数に適応する適応アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2023-03-31T06:47:02Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - Learning Time-Varying Graphs from Online Data [39.21234914444073]
本研究では,オンラインデータから時間変化グラフを学習するアルゴリズムフレームワークを提案する。
モデルに依存しない、すなわち抽象的な定式化において理論的に解析することができる。
フレームワークを3つのよく知られたグラフ学習モデル、すなわちガウス図形モデル(GGM)、構造方程式モデル(SEM)、滑らか性に基づくモデル(SBM)に特化する。
論文 参考訳(メタデータ) (2021-10-21T09:46:44Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - SODEN: A Scalable Continuous-Time Survival Model through Ordinary
Differential Equation Networks [14.564168076456822]
本稿では、ニューラルネットワークとスケーラブルな最適化アルゴリズムを用いた生存分析のためのフレキシブルモデルを提案する。
提案手法の有効性を,既存の最先端ディープラーニングサバイバル分析モデルと比較した。
論文 参考訳(メタデータ) (2020-08-19T19:11:25Z) - Non-asymptotic Convergence Analysis of Two Time-scale (Natural)
Actor-Critic Algorithms [58.57004511121862]
アクタークリティカル(AC)とナチュラルアクタークリティカル(NAC)のアルゴリズムは、最適なポリシーを見つけるために2つの方法で実行されることが多い。
2つの時間スケールACは、$mathcalO(epsilon-2.5log3(epsilon-1))$で、$epsilon$-accurateの定常点に達するために、全体のサンプルの複雑さを必要とすることを示す。
我々は,動的にマルコフサンプリングが変化するため,アクターのバイアス誤差をバウンドする新しい手法を開発した。
論文 参考訳(メタデータ) (2020-05-07T15:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。