論文の概要: Meta-Learning in Self-Play Regret Minimization
- arxiv url: http://arxiv.org/abs/2504.18917v1
- Date: Sat, 26 Apr 2025 13:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.046618
- Title: Meta-Learning in Self-Play Regret Minimization
- Title(参考訳): 自己再生レグレスト最小化におけるメタラーニング
- Authors: David Sychrovský, Martin Schmid, Michal Šustr, Michael Bowling,
- Abstract要約: 両プレイヤーゼロサムゲームにおけるナッシュ均衡を近似する多くのアルゴリズムにおいて,オンライン最適化に対する一般的なアプローチを提案する。
これに基づいてフレームワークを、最先端の平衡近似アルゴリズムの基盤である、より困難なセルフプレイ設定に拡張する。
私たちのメタ学習アルゴリズムは、他の最先端の後悔の最小化アルゴリズムよりもかなり優れています。
- 参考スコア(独自算出の注目度): 10.843705580746397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Regret minimization is a general approach to online optimization which plays a crucial role in many algorithms for approximating Nash equilibria in two-player zero-sum games. The literature mainly focuses on solving individual games in isolation. However, in practice, players often encounter a distribution of similar but distinct games. For example, when trading correlated assets on the stock market, or when refining the strategy in subgames of a much larger game. Recently, offline meta-learning was used to accelerate one-sided equilibrium finding on such distributions. We build upon this, extending the framework to the more challenging self-play setting, which is the basis for most state-of-the-art equilibrium approximation algorithms for domains at scale. When selecting the strategy, our method uniquely integrates information across all decision states, promoting global communication as opposed to the traditional local regret decomposition. Empirical evaluation on normal-form games and river poker subgames shows our meta-learned algorithms considerably outperform other state-of-the-art regret minimization algorithms.
- Abstract(参考訳): レグレト最小化(Regret Minimization)は、オンライン最適化における一般的なアプローチであり、2プレイヤーゼロサムゲームにおけるナッシュ平衡を近似する多くのアルゴリズムにおいて重要な役割を果たす。
主に個別のゲームを単独で解くことに焦点を当てている。
しかし実際には、プレイヤーはしばしば類似しているが異なるゲームの分布に遭遇する。
例えば、株式市場の関連資産を取引する場合や、より大きなゲームのサブゲームにおける戦略を精査する場合などである。
近年, オフラインメタラーニングによる一側平衡探索の高速化が試みられている。
これに基づいて、フレームワークをより困難なセルフプレイ設定に拡張し、これは、大規模ドメインに対する最先端の平衡近似アルゴリズムの基盤となる。
戦略を選択する際には, 従来の局地的後悔の分解とは対照的に, 全意思決定状態の情報を一意に統合し, グローバルコミュニケーションを促進する。
通常のゲームやリバーポーカーのサブゲームに対する実証的な評価は、我々のメタ学習アルゴリズムが、他の最先端の後悔の最小化アルゴリズムよりもかなり優れていることを示している。
関連論文リスト
- Online Learning and Solving Infinite Games with an ERM Oracle [20.1330044382824]
本稿では,ERMオーラクルコールのみに依存するオンラインバイナリ分類設定のためのアルゴリズムを提案する。
我々は、実現可能な設定における有限の後悔と、不可知的な設定におけるサブリニアに成長する後悔が示される。
我々のアルゴリズムは二値ゲームと実値ゲームの両方に適用でき、大きなゲームを解く実践において、二重オラクルと多重オラクルのアルゴリズムを広く活用するための正当性を提供すると見なすことができる。
論文 参考訳(メタデータ) (2023-07-04T12:51:21Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Learning not to Regret [19.945846614714167]
特定の分布に合わせて最小限の後悔をメタ学習できる新しい「後悔しない学習」フレームワークを提案する。
我々の重要な貢献であるNeural Predictive Regret Matchingは、選択されたゲームの分布に対して急速に収束するようにメタ学習されています。
実験の結果,メタ学習アルゴリズムは非メタ学習アルゴリズムよりも優れ,10倍以上の改善が得られた。
論文 参考訳(メタデータ) (2023-03-02T08:56:12Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov
Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。