論文の概要: Exploiting hidden structures in non-convex games for convergence to Nash
equilibrium
- arxiv url: http://arxiv.org/abs/2312.16609v1
- Date: Wed, 27 Dec 2023 15:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 18:39:10.318545
- Title: Exploiting hidden structures in non-convex games for convergence to Nash
equilibrium
- Title(参考訳): ナッシュ平衡収束のための非凸ゲームにおける隠れ構造の爆発
- Authors: Iosif Sakos and Emmanouil-Vasileios Vlatakis-Gkaragkounis and
Panayotis Mertikopoulos and Georgios Piliouras
- Abstract要約: 現代の機械学習アプリケーションは、非協調的なナッシュリリアとして定式化することができる。
決定論的環境と決定論的環境の両方に明確な収束保証を提供する。
- 参考スコア(独自算出の注目度): 62.88214569402201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A wide array of modern machine learning applications - from adversarial
models to multi-agent reinforcement learning - can be formulated as
non-cooperative games whose Nash equilibria represent the system's desired
operational states. Despite having a highly non-convex loss landscape, many
cases of interest possess a latent convex structure that could potentially be
leveraged to yield convergence to equilibrium. Driven by this observation, our
paper proposes a flexible first-order method that successfully exploits such
"hidden structures" and achieves convergence under minimal assumptions for the
transformation connecting the players' control variables to the game's latent,
convex-structured layer. The proposed method - which we call preconditioned
hidden gradient descent (PHGD) - hinges on a judiciously chosen gradient
preconditioning scheme related to natural gradient methods. Importantly, we
make no separability assumptions for the game's hidden structure, and we
provide explicit convergence rate guarantees for both deterministic and
stochastic environments.
- Abstract(参考訳): 敵対モデルからマルチエージェント強化学習まで、現代の機械学習アプリケーションは、ナッシュ平衡がシステムの望ましい運用状態を表す非協調ゲームとして定式化することができる。
極めて非凸損失の景観を持つにもかかわらず、多くの興味のあるケースは潜在凸構造を有しており、平衡に収束する可能性がある。
そこで本研究では,このような「隠れ構造」をうまく活用し,プレイヤーの制御変数とゲームの潜在的凸構造層をつなぐ変換の最小仮定下での収束を実現するフレキシブルな一階法を提案する。
提案手法は, 自然勾配法に係わる規則的に選択された勾配前処理方式に基づいて, プレコンディション付き隠れ勾配降下法 (PHGD) と呼ぶ。
重要なことは、ゲームの内部構造に対する分離可能性の仮定は行わず、決定論的環境と確率的環境の両方に対して明確な収束率を保証する。
関連論文リスト
- Independent Learning in Constrained Markov Potential Games [19.083595175045073]
制約付きマルコフゲームは、マルチエージェント強化学習問題をモデル化するための正式なフレームワークを提供する。
近似的制約付きナッシュ平衡を学習するための独立ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-27T20:57:35Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Rockafellian Relaxation and Stochastic Optimization under Perturbations [0.056247917037481096]
我々は、ロカフェル緩和に基づく楽観的なフレームワークを開発し、最適化は元の決定空間だけでなく、モデルの選択と共同で行われる。
この枠組みは、厳密かつ厳密なロックフェリアンの新たな概念に焦点を合わせ、特定の設定で否定的な「正規化」の解釈が現れる。
論文 参考訳(メタデータ) (2022-04-10T20:02:41Z) - Learning Game-Theoretic Models of Multiagent Trajectories Using Implicit
Layers [9.594432031144716]
本稿では,ニューラルネットとゲーム理論的推論を併用したエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
トラクタビリティのために、我々は新しいタイプの連続ポテンシャルゲームを導入し、アクション空間の平衡分離分割を導入する。
提案手法は,高速道路統合運転者の軌道を予測できる実世界の2つのデータセットと,簡易な意思決定伝達タスクで評価する。
論文 参考訳(メタデータ) (2020-08-17T13:34:12Z) - Smoothed Geometry for Robust Attribution [36.616902063693104]
特徴属性はディープニューラルネットワーク(DNN)の振る舞いを説明する一般的なツールである
それらは、近くの入力に対して異なる説明をもたらす攻撃に弱いことが示されている。
この堅牢性の欠如は、敵対的に操作された説明が安全性と信頼性を損なう可能性のある、高度なアプリケーションにおいて特に問題となる。
論文 参考訳(メタデータ) (2020-06-11T17:35:13Z) - On dissipative symplectic integration with applications to
gradient-based optimization [77.34726150561087]
本稿では,離散化を体系的に実現する幾何学的枠組みを提案する。
我々は、シンプレクティックな非保守的、特に散逸的なハミルトン系への一般化が、制御された誤差まで収束率を維持することができることを示す。
論文 参考訳(メタデータ) (2020-04-15T00:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。