論文の概要: Fisher-Rao Gradient Flows of Linear Programs and State-Action Natural Policy Gradients
- arxiv url: http://arxiv.org/abs/2403.19448v1
- Date: Thu, 28 Mar 2024 14:16:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 16:04:18.893454
- Title: Fisher-Rao Gradient Flows of Linear Programs and State-Action Natural Policy Gradients
- Title(参考訳): 線形プログラムのフィッシャー・ラオ勾配流れと状態-摩擦自然政策勾配
- Authors: Johannes Müller, Semih Çaycı, Guido Montúfar,
- Abstract要約: 状態-作用分布のフィッシャー情報行列に基づく別の自然勾配法について検討する。
摂動型フィッシャー・ラオ勾配流と自然勾配流の近似誤差に対するサブ線形収束性を示す。
- 参考スコア(独自算出の注目度): 15.218434620361387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kakade's natural policy gradient method has been studied extensively in the last years showing linear convergence with and without regularization. We study another natural gradient method which is based on the Fisher information matrix of the state-action distributions and has received little attention from the theoretical side. Here, the state-action distributions follow the Fisher-Rao gradient flow inside the state-action polytope with respect to a linear potential. Therefore, we study Fisher-Rao gradient flows of linear programs more generally and show linear convergence with a rate that depends on the geometry of the linear program. Equivalently, this yields an estimate on the error induced by entropic regularization of the linear program which improves existing results. We extend these results and show sublinear convergence for perturbed Fisher-Rao gradient flows and natural gradient flows up to an approximation error. In particular, these general results cover the case of state-action natural policy gradients.
- Abstract(参考訳): カカデの自然政策勾配法は、近年、正規化と非正規化との線形収束を示す研究が盛んに行われている。
本研究では, 状態-作用分布のフィッシャー情報行列に基づく自然勾配法について検討し, 理論的側面からはほとんど注目されていない。
ここで、状態-作用分布は、線形ポテンシャルに対する状態-作用ポリトープ内のフィッシャー-ラオ勾配の流れに従う。
したがって、線形プログラムのフィッシャー・ラオ勾配流をより一般に研究し、線形プログラムの幾何学に依存する速度で線形収束を示す。
同様に、これは既存の結果を改善する線形プログラムのエントロピー正則化によって引き起こされる誤差を推定する。
これらの結果を拡張し、摂動型フィッシャー・ラオ勾配流と自然勾配流の線形収束を近似誤差まで示す。
特に、これらの一般的な結果は、国家が行動する自然政策勾配のケースをカバーしている。
関連論文リスト
- Kernel Approximation of Fisher-Rao Gradient Flows [52.154685604660465]
本稿では,フィッシャー・ラオ型およびワッサーシュタイン型勾配流の勾配構造,流れ方程式,および核近似に関する厳密な研究を行う。
具体的には、フィッシャー・ラオ幾何学とその様々なカーネルに基づく近似に注目し、原理的な理論的枠組みを開発する。
論文 参考訳(メタデータ) (2024-10-27T22:52:08Z) - Corridor Geometry in Gradient-Based Optimization [11.177186975058047]
廊下は、勾配降下と勾配流が同じ軌跡をたどる領域であることを示す。
廊下における損失線形減少を利用して、勾配降下に対する学習率適応方式を考案する。
論文 参考訳(メタデータ) (2024-02-13T21:54:15Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - A Fisher-Rao gradient flow for entropy-regularised Markov decision
processes in Polish spaces [10.777806006475297]
無限水平エントロピー規則化マルコフ決定過程に対するフィッシャー・ラオ政策勾配流のポーランド状態と行動空間による大域収束について検討する。
勾配流の大域的健全性を確立し,その指数収束性を示す。
論文 参考訳(メタデータ) (2023-10-04T16:41:36Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - Linear Convergence for Natural Policy Gradient with Log-linear Policy
Parametrization [18.072051868187934]
正規化されていない自然政策アルゴリズムの収束速度を対数線形ポリシーパラメトリゼーションを用いて解析する。
このアルゴリズムは、決定論の場合と同じ線形保証を誤差項まで楽しむことを示す。
論文 参考訳(メタデータ) (2022-09-30T11:17:44Z) - Stability vs Implicit Bias of Gradient Methods on Separable Data and
Beyond [33.593203156666746]
分離線形分類に適用された非正規化勾配に基づく学習手順の一般化特性に着目する。
この一般化についてさらに統一的な説明をし、実現可能性と自己有界性(self-boundedness)と呼ぶ。
これらのケースのいくつかでは、文献における既存の一般化誤差境界に対して、我々の境界は著しく改善される。
論文 参考訳(メタデータ) (2022-02-27T19:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。