論文の概要: Regret Minimization and Convergence to Equilibria in General-sum Markov
Games
- arxiv url: http://arxiv.org/abs/2207.14211v1
- Date: Thu, 28 Jul 2022 16:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 11:51:03.655270
- Title: Regret Minimization and Convergence to Equilibria in General-sum Markov
Games
- Title(参考訳): 一般サムマルコフゲームにおける後悔の最小化と平衡への収束
- Authors: Liad Erez, Tal Lancewicki, Uri Sherman, Tomer Koren and Yishay Mansour
- Abstract要約: 汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
- 参考スコア(独自算出の注目度): 57.568118148036376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An abundance of recent impossibility results establish that regret
minimization in Markov games with adversarial opponents is both statistically
and computationally intractable. Nevertheless, none of these results preclude
the possibility of regret minimization under the assumption that all parties
adopt the same learning procedure. In this work, we present the first (to our
knowledge) algorithm for learning in general-sum Markov games that provides
sublinear regret guarantees when executed by all agents. The bounds we obtain
are for swap regret, and thus, along the way, imply convergence to a correlated
equilibrium. Our algorithm is decentralized, computationally efficient, and
does not require any communication between agents. Our key observation is that
online learning via policy optimization in Markov games essentially reduces to
a form of weighted regret minimization, with unknown weights determined by the
path length of the agents' policy sequence. Consequently, controlling the path
length leads to weighted regret objectives for which sufficiently adaptive
algorithms provide sublinear regret guarantees.
- Abstract(参考訳): 近年の不可能性が豊富にあることから、敵対相手のマルコフゲームにおける後悔の最小化は統計的にも計算的にも難解である。
それでも、これらの結果は、すべての当事者が同じ学習手順を採用するという仮定の下で、後悔の最小化を妨げない。
本研究では,すべてのエージェントが実行した際のサブ線形後悔保証を提供する汎用マルコフゲームにおいて,学習のための最初の(知識への)アルゴリズムを提案する。
我々が得た境界は、スワップ後悔のためであり、それゆえ、その過程で、相関均衡への収束を意味する。
アルゴリズムは分散化され,計算効率が高く,エージェント間の通信は不要である。
我々のキーとなる観察は、マルコフゲームにおけるポリシー最適化によるオンライン学習は本質的に、エージェントのポリシーシーケンスのパス長によって決定される未知の重み付き後悔の最小化の形に還元されるということである。
その結果、経路長の制御は、十分に適応されたアルゴリズムがサブ線形後悔保証を提供する、重み付けされた後悔目標をもたらす。
関連論文リスト
- Convex Markov Games: A Framework for Fairness, Imitation, and Creativity in Multi-Agent Learning [31.958202912400925]
コンベックス・マルコフゲーム(英語版)のクラスを導入し、占有度よりも一般的なコンベックス・プレイスを可能にする。
無限の時間的地平線とマルコフゲームよりも厳密な一般性にもかかわらず、純粋な戦略 ナッシュ平衡は厳密な凸性の下で存在する。
我々の実験は、最後通しゲームにおける人間の選択を模倣し、繰り返しの囚人のジレンマに対する新しい解決策を明らかにし、反復的な非対称調整ゲームにおいて公正な解決策を見つける。
論文 参考訳(メタデータ) (2024-10-22T00:55:04Z) - Taming Equilibrium Bias in Risk-Sensitive Multi-Agent Reinforcement Learning [14.571671587217764]
リスクに敏感なマルチエージェント強化学習を一般的なマルコフゲームで研究する。
本研究では,既存の文献から帰納的に適用した後悔を評価指標として,均衡バイアスを伴う政策を導出できることを示す。
我々は、リスクバランスのとれた後悔の概念を新たに提案し、均衡バイアスの問題を克服していることを示す。
論文 参考訳(メタデータ) (2024-05-04T17:47:45Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - Learning Rationalizable Equilibria in Multiplayer Games [38.922957434291554]
既存のアルゴリズムでは、帯域幅フィードバックの下で合理化可能な平衡を学習するために、プレイヤー数で指数関数的に多くのサンプルを必要とする。
本稿では、合理化可能な粗相関平衡(CCE)と相関平衡(CE)を学習するための効率的なアルゴリズムの第一線を開発する。
本アルゴリズムは,合理化可能性を保証するための新しい手法と,相関探索スキームと適応学習率を含む(スワップ-)レグレットを同時に備えている。
論文 参考訳(メタデータ) (2022-10-20T16:49:00Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。