論文の概要: Online Learning and Solving Infinite Games with an ERM Oracle
- arxiv url: http://arxiv.org/abs/2307.01689v2
- Date: Mon, 10 Jul 2023 11:16:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 17:44:26.492065
- Title: Online Learning and Solving Infinite Games with an ERM Oracle
- Title(参考訳): erm oracleによるオンライン学習と無限のゲーム解決
- Authors: Angelos Assos, Idan Attias, Yuval Dagan, Constantinos Daskalakis,
Maxwell Fishelson
- Abstract要約: 本稿では,ERMオーラクルコールのみに依存するオンラインバイナリ分類設定のためのアルゴリズムを提案する。
我々は、実現可能な設定における有限の後悔と、不可知的な設定におけるサブリニアに成長する後悔が示される。
我々のアルゴリズムは二値ゲームと実値ゲームの両方に適用でき、大きなゲームを解く実践において、二重オラクルと多重オラクルのアルゴリズムを広く活用するための正当性を提供すると見なすことができる。
- 参考スコア(独自算出の注目度): 20.1330044382824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While ERM suffices to attain near-optimal generalization error in the
stochastic learning setting, this is not known to be the case in the online
learning setting, where algorithms for general concept classes rely on
computationally inefficient oracles such as the Standard Optimal Algorithm
(SOA). In this work, we propose an algorithm for online binary classification
setting that relies solely on ERM oracle calls, and show that it has finite
regret in the realizable setting and sublinearly growing regret in the agnostic
setting. We bound the regret in terms of the Littlestone and threshold
dimensions of the underlying concept class.
We obtain similar results for nonparametric games, where the ERM oracle can
be interpreted as a best response oracle, finding the best response of a player
to a given history of play of the other players. In this setting, we provide
learning algorithms that only rely on best response oracles and converge to
approximate-minimax equilibria in two-player zero-sum games and approximate
coarse correlated equilibria in multi-player general-sum games, as long as the
game has a bounded fat-threshold dimension. Our algorithms apply to both
binary-valued and real-valued games and can be viewed as providing
justification for the wide use of double oracle and multiple oracle algorithms
in the practice of solving large games.
- Abstract(参考訳): ERMは確率的学習環境でほぼ最適の一般化誤差を達成するのに十分であるが、オンライン学習環境では、一般的な概念クラスのためのアルゴリズムが標準最適アルゴリズム(SOA)のような計算的に非効率なオラクルに依存することは知られていない。
本研究では,ERMオーラクルコールのみに依存するオンラインバイナリ分類設定のアルゴリズムを提案する。
我々は、基礎となる概念クラスのリトルストーンとしきい値次元の観点で後悔を締めくくった。
我々は、erm oracleがベストレスポンスオラクルと解釈できる非パラメトリックゲームで同様の結果を得ることができ、他のプレイヤーのプレイ履歴に対するプレイヤーのベストレスポンスを見つけることができる。
この設定において、我々は、ベストレスポンスオラクルにのみ依存し、2人のプレイヤーのゼロサムゲームにおける近似ミニマックス平衡とマルチプレイヤーの一般サムゲームにおける近似粗相関平衡に収束する学習アルゴリズムを提供する。
我々のアルゴリズムは二値ゲームと実値ゲームの両方に適用でき、大きなゲームを解く実践において、二重オラクルと多重オラクルのアルゴリズムを広く活用するための正当化を提供すると見なすことができる。
関連論文リスト
- Playing Large Games with Oracles and AI Debate [27.355621483737913]
既存のオンラインゲームプレイのアルゴリズムでは、アクションの回数のイテレーションが要求されるため、大規模なゲームでは禁止される可能性がある。
動作数を対数的に依存する外部と内部の後悔の最小化を同時に行うための,新しい効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:06:55Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Smoothed Online Learning is as Easy as Statistical Learning [77.00766067963195]
この設定では、最初のオラクル効率、非回帰アルゴリズムを提供する。
古典的な設定で関数クラスが学習可能な場合、文脈的包帯に対するオラクル効率のよい非回帰アルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2022-02-09T19:22:34Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。