論文の概要: The equivalence of dynamic and strategic stability under regularized
learning in games
- arxiv url: http://arxiv.org/abs/2311.02407v1
- Date: Sat, 4 Nov 2023 14:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 17:43:05.609878
- Title: The equivalence of dynamic and strategic stability under regularized
learning in games
- Title(参考訳): ゲームにおける正規化学習における動的・戦略的安定性の等価性
- Authors: Victor Boone and Panayotis Mertikopoulos
- Abstract要約: 有限ゲームにおける正規化学習の長時間動作について検討する。
戦略的安定性と動的安定性の等価性を得る。
エントロピー正則化に基づく手法は幾何速度で収束することを示す。
- 参考スコア(独自算出の注目度): 33.74394172275373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we examine the long-run behavior of regularized, no-regret
learning in finite games. A well-known result in the field states that the
empirical frequencies of no-regret play converge to the game's set of coarse
correlated equilibria; however, our understanding of how the players' actual
strategies evolve over time is much more limited - and, in many cases,
non-existent. This issue is exacerbated further by a series of recent results
showing that only strict Nash equilibria are stable and attracting under
regularized learning, thus making the relation between learning and pointwise
solution concepts particularly elusive. In lieu of this, we take a more general
approach and instead seek to characterize the \emph{setwise} rationality
properties of the players' day-to-day play. To that end, we focus on one of the
most stringent criteria of setwise strategic stability, namely that any
unilateral deviation from the set in question incurs a cost to the deviator - a
property known as closedness under better replies (club). In so doing, we
obtain a far-reaching equivalence between strategic and dynamic stability: a
product of pure strategies is closed under better replies if and only if its
span is stable and attracting under regularized learning. In addition, we
estimate the rate of convergence to such sets, and we show that methods based
on entropic regularization (like the exponential weights algorithm) converge at
a geometric rate, while projection-based methods converge within a finite
number of iterations, even with bandit, payoff-based feedback.
- Abstract(参考訳): 本稿では,有限ゲームにおける正規化非回帰学習の長期実行行動について検討する。
フィールドでのよく知られた結果は、ノンレグレットプレイの実証的な頻度がゲームの粗い相関均衡に収束することを示しているが、プレイヤーの実際の戦略が時間とともにどのように進化するかに対する我々の理解は、より限定的であり、多くの場合、存在しない。
この問題は、厳密なナッシュ均衡のみが安定し、正規化学習の下で引き寄せられることを示し、学習とポイントワイズ・ソリューションの概念との関係を特に解明することによってさらに悪化する。
これの代わりに、我々はより一般的なアプローチをとり、プレイヤーの日々のプレーの「emph{setwise}」合理性特性を特徴付けようとしている。
この目的を達成するために,我々は,集合からの一方的な逸脱が,よりよい応答(club)の下での閉性(closeness)と呼ばれる特性であるデビエータ(deviator)のコストを伴うという,集合的な戦略的安定性の最も厳密な基準の1つに焦点を当てている。
純粋な戦略の製品は、そのスパンが安定していて、正規化学習の下で引き寄せられる場合に限り、より良い応答の下で閉じられる。
さらに、そのような集合への収束率を推定し、エントロピー正則化に基づく手法(指数重み付けアルゴリズムなど)が幾何的な速度で収束するのに対し、射影に基づく手法は、帯域幅、ペイオフベースのフィードバックであっても有限個の反復に収束することを示す。
関連論文リスト
- Learning Nash Equilibria in Zero-Sum Markov Games: A Single Time-scale Algorithm Under Weak Reachability [11.793922711718645]
我々は,ゼロサムゲームにおいて,プレイヤーが情報のみを閲覧し,相手の行動や支払いを行うような分散学習を検討する。
従来の研究は、強い到達可能性仮定の下で二重時間スケールのアルゴリズムを用いて、この設定でナッシュ均衡に収束することを示した。
我々の貢献は合理的で収束したアルゴリズムであり、Tsallis-Entropy regularization を値イテレーションに基づくアルゴリズムで利用している。
論文 参考訳(メタデータ) (2023-12-13T09:31:30Z) - Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:10:04Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - On the convergence of policy gradient methods to Nash equilibria in
general stochastic games [33.786186304912]
ナッシュ均衡政策に関する政策勾配法の長期的挙動について検討する。
本稿では,REINFORCEアルゴリズムによって得られる勾配推定値を持つ政策勾配軌跡を$mathcalO (1/sqrtn)$ distance-squared convergence rate とする。
論文 参考訳(メタデータ) (2022-10-17T08:51:59Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Learning Equilibria in Matching Markets from Bandit Feedback [139.29934476625488]
不確実性の下で安定した市場成果を学習するためのフレームワークとアルゴリズムを開発する。
私たちの研究は、大規模なデータ駆動の市場において、いつ、どのように安定したマッチングが生じるかを明らかにするための第一歩を踏み出します。
論文 参考訳(メタデータ) (2021-08-19T17:59:28Z) - Survival of the strictest: Stable and unstable equilibria under
regularized learning with partial information [32.384868685390906]
一般Nプレイヤーゲームにおける非回帰学習のナッシュ平衡収束特性について検討する。
ナッシュ平衡の安定性と支持との包括的な等価性を確立します。
ゲームにおける非学習の日々の行動を予測するための明確な洗練基準を提供する。
論文 参考訳(メタデータ) (2021-01-12T18:55:11Z) - Learning from History for Byzantine Robust Optimization [52.68913869776858]
分散学習の重要性から,ビザンチンの堅牢性が近年注目されている。
既存のロバストアグリゲーションルールの多くは、ビザンチンの攻撃者がいなくても収束しない可能性がある。
論文 参考訳(メタデータ) (2020-12-18T16:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。