論文の概要: Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic
- arxiv url: http://arxiv.org/abs/2112.13530v2
- Date: Mon, 1 Apr 2024 04:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 00:07:06.313676
- Title: Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic
- Title(参考訳): Wasserstein Flow and Replicator Dynamics: a Mean-Field Analysis of Representation Learning in Actor-Critic
- Authors: Yufeng Zhang, Siyu Chen, Zhuoran Yang, Michael I. Jordan, Zhaoran Wang,
- Abstract要約: ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
- 参考スコア(独自算出の注目度): 137.04558017227583
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Actor-critic (AC) algorithms, empowered by neural networks, have had significant empirical success in recent years. However, most of the existing theoretical support for AC algorithms focuses on the case of linear function approximations, or linearized neural networks, where the feature representation is fixed throughout training. Such a limitation fails to capture the key aspect of representation learning in neural AC, which is pivotal in practical problems. In this work, we take a mean-field perspective on the evolution and convergence of feature-based neural AC. Specifically, we consider a version of AC where the actor and critic are represented by overparameterized two-layer neural networks and are updated with two-timescale learning rates. The critic is updated by temporal-difference (TD) learning with a larger stepsize while the actor is updated via proximal policy optimization (PPO) with a smaller stepsize. In the continuous-time and infinite-width limiting regime, when the timescales are properly separated, we prove that neural AC finds the globally optimal policy at a sublinear rate. Additionally, we prove that the feature representation induced by the critic network is allowed to evolve within a neighborhood of the initial one.
- Abstract(参考訳): ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
しかしながら、既存のACアルゴリズムの理論的サポートのほとんどは、トレーニング中に特徴表現が固定される線形関数近似や線形化ニューラルネットワークの場合に焦点を当てている。
このような制限は、実践的な問題において重要なニューラルネットワークにおける表現学習のキーとなる側面を捉えることに失敗する。
本研究では,特徴量に基づくニューラル交流の進化と収束について,平均場の観点から考察する。
具体的には、アクターと批評家が過度にパラメータ化された2層ニューラルネットワークで表現され、2段階の学習率で更新されるACのバージョンを検討する。
批評家は、時間差学習(TD)によってより大きなステップサイズで更新され、アクターは、より小さなステップサイズで、近位ポリシー最適化(PPO)によって更新される。
連続時間および無限幅制限系では、時間スケールが適切に分離された場合、ニューラルACがサブリニアレートで世界的最適ポリシーを見つけることが証明される。
さらに,批判ネットワークによって誘導される特徴表現が,初期近傍で進化することが証明された。
関連論文リスト
- Learning-Based Verification of Stochastic Dynamical Systems with Neural Network Policies [7.9898826915621965]
我々は、他のニューラルネットワークをトレーニングする検証手順を使用し、ポリシーがタスクを満足することを示す証明書として機能する。
リーチ回避タスクでは、この証明ネットワークがリーチ回避スーパーマーチンゲール(RASM)であることを示すのに十分である。
論文 参考訳(メタデータ) (2024-06-02T18:19:19Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Overcoming the Spectral Bias of Neural Value Approximation [17.546011419043644]
ディープニューラルネットワークを用いた値近似は、アルゴリズムの他の部分に学習信号を提供する主要なモジュールであることが多い。
神経核レグレッションにおける最近の研究は、スペクトルバイアスの存在を示唆している。そこでは、値関数の高周波成分を適合させるには、低周波成分よりも指数関数的に多くの勾配更新ステップが必要である。
我々は、カーネルレグレッションのレンズを通して、非政治強化学習を再検討し、複合神経カーネルを介してそのようなバイアスを克服することを提案する。
論文 参考訳(メタデータ) (2022-06-09T17:59:57Z) - Online Attentive Kernel-Based Temporal Difference Learning [13.94346725929798]
オンライン強化学習(RL)はその高速学習能力とデータ効率の向上により注目されている。
オンラインRLは、しばしば複雑な値関数近似(VFA)と破滅的な干渉に悩まされる。
2時間スケール最適化を用いたオンラインカーネルに基づく時間差分法(OAKTD)を提案する。
論文 参考訳(メタデータ) (2022-01-22T14:47:10Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory [110.99247009159726]
時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。
特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
論文 参考訳(メタデータ) (2020-06-08T17:25:22Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。