論文の概要: Newton Optimization on Helmholtz Decomposition for Continuous Games
- arxiv url: http://arxiv.org/abs/2007.07804v3
- Date: Thu, 2 Sep 2021 12:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:00:40.398110
- Title: Newton Optimization on Helmholtz Decomposition for Continuous Games
- Title(参考訳): 連続ゲームにおけるヘルムホルツ分解のニュートン最適化
- Authors: Giorgia Ramponi and Marcello Restelli
- Abstract要約: NOHDは、システムのダイナミクスの分解に基づくマルチエージェント学習問題に対するニュートン風のアルゴリズムである。
我々はNOHDが一般的なマルチエージェントシステムにおいて安定な固定点に惹きつけられ、厳密なサドルシステムによって撃退されることを示す。
- 参考スコア(独自算出の注目度): 47.42898331586512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many learning problems involve multiple agents optimizing different
interactive functions. In these problems, the standard policy gradient
algorithms fail due to the non-stationarity of the setting and the different
interests of each agent. In fact, algorithms must take into account the complex
dynamics of these systems to guarantee rapid convergence towards a (local) Nash
equilibrium. In this paper, we propose NOHD (Newton Optimization on Helmholtz
Decomposition), a Newton-like algorithm for multi-agent learning problems based
on the decomposition of the dynamics of the system in its irrotational
(Potential) and solenoidal (Hamiltonian) component. This method ensures
quadratic convergence in purely irrotational systems and pure solenoidal
systems. Furthermore, we show that NOHD is attracted to stable fixed points in
general multi-agent systems and repelled by strict saddle ones. Finally, we
empirically compare the NOHD's performance with that of state-of-the-art
algorithms on some bimatrix games and in a continuous Gridworld environment.
- Abstract(参考訳): 多くの学習問題は、異なる対話関数を最適化する複数のエージェントを含む。
これらの問題において、標準ポリシー勾配アルゴリズムは、設定の非定常性と各エージェントの異なる関心のために失敗する。
実際、アルゴリズムは(局所的な)ナッシュ平衡への迅速な収束を保証するために、これらのシステムの複雑なダイナミクスを考慮する必要がある。
本論文では,その不等式(電位)およびソレノイド(ハミルトニアン)成分におけるシステムの力学の分解に基づく,マルチエージェント学習問題に対するNOHD(Newton Optimization on Helmholtz Decomposition)を提案する。
この方法は、純粋に非回転系と純粋なソレノイド系における二次収束を保証する。
さらに、NOHDは一般的なマルチエージェントシステムにおいて安定な固定点に惹きつけられ、厳密なサドルシステムによって撃退されることを示す。
最後に,NOHDの性能を,いくつかのビマトリクスゲームや連続Gridworld環境における最先端のアルゴリズムと比較した。
関連論文リスト
- Reduced-Space Iteratively Reweighted Second-Order Methods for Nonconvex Sparse Regularization [11.56128809794923]
本稿では,局所的なプロパティ収束の反復を$ell_p-$で行うような非スパース性プロモート正規化問題について検討する。
論文 参考訳(メタデータ) (2024-07-24T12:15:59Z) - Independent Learning in Constrained Markov Potential Games [19.083595175045073]
制約付きマルコフゲームは、マルチエージェント強化学習問題をモデル化するための正式なフレームワークを提供する。
近似的制約付きナッシュ平衡を学習するための独立ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-27T20:57:35Z) - PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。
連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文 参考訳(メタデータ) (2023-03-02T05:08:15Z) - Regularized Gradient Descent Ascent for Two-Player Zero-Sum Markov Games [16.09467599829253]
本研究では,2プレーヤゼロサムゲームにおけるナッシュ平衡を求める問題について検討する。
我々の主な貢献は、正規化パラメータの適切な選択の下で、勾配が元の非正規化問題のナッシュ平衡に傾くことを示すことである。
論文 参考訳(メタデータ) (2022-05-27T03:24:12Z) - First-Order Algorithms for Nonlinear Generalized Nash Equilibrium
Problems [88.58409977434269]
非線形一般化ナッシュ均衡問題(NGNEP)における平衡計算の問題を考える。
我々の貢献は、2次ペナルティ法と拡張ラグランジアン法に基づく2つの単純な一階アルゴリズムフレームワークを提供することである。
これらのアルゴリズムに対する漸近的理論的保証を提供する。
論文 参考訳(メタデータ) (2022-04-07T00:11:05Z) - Message Passing Neural PDE Solvers [60.77761603258397]
我々は、バックプロップ最適化されたニューラル関数近似器で、グラフのアリーデザインのコンポーネントを置き換えるニューラルメッセージパッシング解決器を構築した。
本稿では, 有限差分, 有限体積, WENOスキームなどの古典的手法を表現的に含んでいることを示す。
本研究では, 異なる領域のトポロジ, 方程式パラメータ, 離散化などにおける高速, 安定, 高精度な性能を, 1次元, 2次元で検証する。
論文 参考訳(メタデータ) (2022-02-07T17:47:46Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。