論文の概要: Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks
- arxiv url: http://arxiv.org/abs/2211.15936v1
- Date: Tue, 29 Nov 2022 05:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 15:26:54.553506
- Title: Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks
- Title(参考訳): ランダム化ポリシーネットワークを用いたグラデーションのない連続アクションゲームの混合戦略平衡の探索
- Authors: Carlos Martin, Tuomas Sandholm
- Abstract要約: グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
- 参考スコア(独自算出の注目度): 83.28949556413717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of computing an approximate Nash equilibrium of
continuous-action game without access to gradients. Such game access is common
in reinforcement learning settings, where the environment is typically treated
as a black box. To tackle this problem, we apply zeroth-order optimization
techniques that combine smoothed gradient estimators with equilibrium-finding
dynamics. We model players' strategies using artificial neural networks. In
particular, we use randomized policy networks to model mixed strategies. These
take noise in addition to an observation as input and can flexibly represent
arbitrary observation-dependent, continuous-action distributions. Being able to
model such mixed strategies is crucial for tackling continuous-action games
that lack pure-strategy equilibria. We evaluate the performance of our method
using an approximation of the Nash convergence metric from game theory, which
measures how much players can benefit from unilaterally changing their
strategy. We apply our method to continuous Colonel Blotto games, single-item
and multi-item auctions, and a visibility game. The experiments show that our
method can quickly find high-quality approximate equilibria. Furthermore, they
show that the dimensionality of the input noise is crucial for performance. To
our knowledge, this paper is the first to solve general continuous-action games
with unrestricted mixed strategies and without any gradient information.
- Abstract(参考訳): グラデーションにアクセスせずに連続アクションゲームのナッシュ平衡を近似計算する問題について検討する。
このようなゲームアクセスは、環境がブラックボックスとして扱われる強化学習設定で一般的である。
この問題に対処するために,滑らかな勾配推定器と平衡探索ダイナミクスを組み合わせたゼロ次最適化手法を適用する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
特に、ランダム化されたポリシーネットワークを使用して混合戦略をモデル化する。
これらは入力として観測に加えてノイズを取り、任意の観測依存の連続的な分布を柔軟に表現することができる。
このような混合戦略をモデル化できることは、純粋なストラテジー均衡が欠如している連続アクションゲームに取り組む上で重要である。
本手法は,ゲーム理論から得られるnash収束メトリックの近似を用いて,一方的に戦略を変更することによってプレイヤーがどれだけの利益を得られるかを評価する。
本稿では,Blotto連続型ゲーム,シングルイットとマルチイットのオークション,可視性ゲームに適用する。
実験の結果,提案手法は高品質な近似平衡を迅速に発見できることがわかった。
さらに,入力雑音の次元性が性能に重要であることを示した。
本論文は,無拘束混合戦略を用いて,勾配情報のない一般的な連続的なゲームを解く最初の方法である。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - The equivalence of dynamic and strategic stability under regularized
learning in games [33.74394172275373]
有限ゲームにおける正規化学習の長時間動作について検討する。
戦略的安定性と動的安定性の等価性を得る。
エントロピー正則化に基づく手法は幾何速度で収束することを示す。
論文 参考訳(メタデータ) (2023-11-04T14:07:33Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。
本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-20T23:55:30Z) - Opponent Modeling in Multiplayer Imperfect-Information Games [1.024113475677323]
マルチプレイヤー不完全情報ゲームにおける対戦相手モデルへのアプローチを提案する。
我々は,3人プレイヤのクーンポーカーにおいて,種々の実敵と正確なナッシュ均衡戦略に対する実験を行う。
我々のアルゴリズムは、正確なナッシュ均衡戦略を含む全てのエージェントを著しく上回る。
論文 参考訳(メタデータ) (2022-12-12T16:48:53Z) - An Exponentially Converging Particle Method for the Mixed Nash
Equilibrium of Continuous Games [0.0]
我々は,2プレイヤーゼロサムゲームの混合ナッシュ平衡と,純戦略の連続的なセットと,ペイオフ関数への一次アクセスとの問題を考察する。
この問題は例えば、分散ロバスト学習のようなゲームにインスパイアされた機械学習アプリケーションで発生する。
本稿では,この問題に対する局所収束性を保証する粒子法の導入と解析を行う。
論文 参考訳(メタデータ) (2022-11-02T17:03:40Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Multiplayer Performative Prediction: Learning in Decision-Dependent
Games [18.386569111954213]
本稿では,マルチプレイヤー演奏予測のための新たなゲーム理論の枠組みを定式化する。
我々は、(i)パフォーマンス的に安定な平衡と(ii)ゲームのナッシュ平衡という、2つの異なる解の概念に焦点を当てる。
軽微な仮定の下では、様々なアルゴリズムにより、性能的に安定な平衡を効率的に見つけることができることを示す。
論文 参考訳(メタデータ) (2022-01-10T15:31:10Z) - Efficient Competitive Self-Play Policy Optimization [20.023522000925094]
対戦型ゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。
本手法は,複数のエージェントを同時に訓練し,単純な対戦ルールに基づいて知的に互いに相手として取り合う。
我々は,このアルゴリズムが凸凹ゲームにおいて高い確率で近似平衡に収束することを理論的に証明する。
論文 参考訳(メタデータ) (2020-09-13T21:01:38Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。