論文の概要: For Learning in Symmetric Teams, Local Optima are Global Nash Equilibria
- arxiv url: http://arxiv.org/abs/2207.03470v1
- Date: Thu, 7 Jul 2022 17:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 15:42:28.618476
- Title: For Learning in Symmetric Teams, Local Optima are Global Nash Equilibria
- Title(参考訳): 対称なチームで学ぶために、ローカルオプティマはグローバルナッシュ均衡である
- Authors: Scott Emmons, Caspar Oesterheld, Andrew Critch, Vincent Conitzer,
Stuart Russell
- Abstract要約: 局所最適対称戦略プロファイルもまた(グローバル)ナッシュ平衡であることを示す。
混合局所最適が不規則な非対称偏差の下で不安定なゲーム群を同定する。
結果の多エージェントRL, 協調的逆RL, 分散POMDPへの適用性について論じる。
- 参考スコア(独自算出の注目度): 42.03569334193515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although it has been known since the 1970s that a globally optimal strategy
profile in a common-payoff game is a Nash equilibrium, global optimality is a
strict requirement that limits the result's applicability. In this work, we
show that any locally optimal symmetric strategy profile is also a (global)
Nash equilibrium. Furthermore, we show that this result is robust to
perturbations to the common payoff and to the local optimum. Applied to machine
learning, our result provides a global guarantee for any gradient method that
finds a local optimum in symmetric strategy space. While this result indicates
stability to unilateral deviation, we nevertheless identify broad classes of
games where mixed local optima are unstable under joint, asymmetric deviations.
We analyze the prevalence of instability by running learning algorithms in a
suite of symmetric games, and we conclude by discussing the applicability of
our results to multi-agent RL, cooperative inverse RL, and decentralized
POMDPs.
- Abstract(参考訳): 共通のペイオフゲームにおけるグローバル最適戦略プロファイルがナッシュ均衡であることは1970年代から知られているが、グローバル最適性は結果の適用性を制限する厳密な要件である。
本研究では、任意の局所最適対称戦略プロファイルもまた(グローバル)ナッシュ平衡であることを示す。
さらに,この結果は,共通利得と局所的最適性に対する摂動に頑健であることを示す。
機械学習に適用することにより,局所最適不斉戦略空間を求める任意の勾配法に対して,大域的保証を与える。
この結果は一方的な偏差に対する安定性を示すが、しかしながら、混合局所最適が関節下で不安定な非対称偏差の広いクラスを識別する。
対称ゲーム群における学習アルゴリズムの実行による不安定性の有意性の解析を行い、その結果をマルチエージェントRL、協調的逆RL、分散POMDPに適用可能であることを論じる。
関連論文リスト
- Asymmetrically Decentralized Federated Learning [22.21977974314497]
分散フェデレーションラーニング(DFL)が出現し、ピアツーピア(P2P)通信フレームワークでサーバを破棄する。
本稿では,非対称トポロジに基づくPush-Awareプロトコルを用いたDFedSGPSMアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-08T09:46:26Z) - Dynamic Regularized Sharpness Aware Minimization in Federated Learning: Approaching Global Consistency and Smooth Landscape [59.841889495864386]
フェデレートラーニング(FL)では、グローバルサーバの協調の下で、ローカルクライアントのクラスタがチェアリングされる。
クライアントは自身のオプティマに過度に適合する傾向にあり、グローバルな目標から非常に逸脱する。
tt Family FedSMOOは、グローバルな目的に対する局所的な最適性を保証するために動的正規化器を採用する。
理論解析により, tt Family FedSMOO は, 低境界一般化による高速$mathcalO (1/T)$収束率を達成することが示された。
論文 参考訳(メタデータ) (2023-05-19T10:47:44Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Scalable Distributional Robustness in a Class of Non Convex Optimization
with Guarantees [7.541571634887807]
分散ロバスト最適化 (DRO) は, サンプルベース問題と同様に, 学習におけるロバスト性を示す。
実世界における課題を解くのに十分ではない混合整数クラスタリングプログラム (MISOCP) を提案する。
論文 参考訳(メタデータ) (2022-05-31T09:07:01Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z) - Distributionally Robust Federated Averaging [19.875176871167966]
適応サンプリングを用いた堅牢な学習周期平均化のためのコミュニケーション効率の高い分散アルゴリズムを提案する。
我々は、フェデレーション学習環境における理論的結果に関する実験的証拠を裏付ける。
論文 参考訳(メタデータ) (2021-02-25T03:32:09Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。