論文の概要: Solving Common-Payoff Games with Approximate Policy Iteration
- arxiv url: http://arxiv.org/abs/2101.04237v1
- Date: Mon, 11 Jan 2021 23:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 14:47:56.088258
- Title: Solving Common-Payoff Games with Approximate Policy Iteration
- Title(参考訳): ポリシーイテレーションによる共通ペイオフゲームの解決
- Authors: Samuel Sokota, Edward Lockhart, Finbarr Timbers, Elnaz Davoodi, Ryan
D'Orazio, Neil Burch, Martin Schmid, Michael Bowling, Marc Lanctot
- Abstract要約: この研究は、共通知識と深層強化学習を組み合わせた新しいアルゴリズムであるCAPIを提案する。
他の現代的なマルチエージェント強化学習アルゴリズムではできない場合でも、最適なジョイントポリシーを発見することができる。
- 参考スコア(独自算出の注目度): 24.12056802167693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For artificially intelligent learning systems to have widespread
applicability in real-world settings, it is important that they be able to
operate decentrally. Unfortunately, decentralized control is difficult --
computing even an epsilon-optimal joint policy is a NEXP complete problem.
Nevertheless, a recently rediscovered insight -- that a team of agents can
coordinate via common knowledge -- has given rise to algorithms capable of
finding optimal joint policies in small common-payoff games. The Bayesian
action decoder (BAD) leverages this insight and deep reinforcement learning to
scale to games as large as two-player Hanabi. However, the approximations it
uses to do so prevent it from discovering optimal joint policies even in games
small enough to brute force optimal solutions. This work proposes CAPI, a novel
algorithm which, like BAD, combines common knowledge with deep reinforcement
learning. However, unlike BAD, CAPI prioritizes the propensity to discover
optimal joint policies over scalability. While this choice precludes CAPI from
scaling to games as large as Hanabi, empirical results demonstrate that, on the
games to which CAPI does scale, it is capable of discovering optimal joint
policies even when other modern multi-agent reinforcement learning algorithms
are unable to do so. Code is available at https://github.com/ssokota/capi .
- Abstract(参考訳): 人工知能学習システムが現実世界で広く適用可能であるためには,分散的に運用できることが重要である。
残念ながら、分散制御は難しい。epsilon-optimalのジョイントポリシーでさえも、nexpの完全な問題である。
しかし、最近再発見された、エージェントのチームが共通の知識を通じて協調できるという洞察は、小さな共通支払いゲームで最適な共同ポリシーを見つけるアルゴリズムを生み出した。
ベイズアクションデコーダ(BAD)は、この洞察と深い強化学習を利用して、2人のプレイヤーであるハナビのゲームにスケールする。
しかし、それが行おうとする近似は、最適な解を強迫するほど小さいゲームでも最適なジョイントポリシーを発見するのを防ぐ。
この研究は、共通知識と深い強化学習を組み合わせた新しいアルゴリズムであるCAPIを提案する。
しかし、BADとは異なり、CAPIはスケーラビリティよりも最適なジョイントポリシーを見つけるための妥当性を優先している。
この選択は、CAPIがハナビほど大きなゲームにスケールすることを妨げるが、実証的な結果は、CAPIがスケールするゲームでは、他の現代的なマルチエージェント強化学習アルゴリズムではできない場合でも、最適なジョイントポリシーを発見することができることを示している。
コードはhttps://github.com/ssokota/capiで入手できる。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - Online Learning and Solving Infinite Games with an ERM Oracle [20.1330044382824]
本稿では,ERMオーラクルコールのみに依存するオンラインバイナリ分類設定のためのアルゴリズムを提案する。
我々は、実現可能な設定における有限の後悔と、不可知的な設定におけるサブリニアに成長する後悔が示される。
我々のアルゴリズムは二値ゲームと実値ゲームの両方に適用でき、大きなゲームを解く実践において、二重オラクルと多重オラクルのアルゴリズムを広く活用するための正当性を提供すると見なすことができる。
論文 参考訳(メタデータ) (2023-07-04T12:51:21Z) - The Update-Equivalence Framework for Decision-Time Planning [78.44953498421854]
本稿では,サブゲームの解決ではなく,更新等価性に基づく意思決定時計画のための代替フレームワークを提案する。
ミラー降下に基づく完全協調型ゲームに対する有効音声探索アルゴリズムと、磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-04-25T20:28:55Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Towards automating Codenames spymasters with deep reinforcement learning [0.0]
この研究は、マルコフ決定プロセスとしてコードネームを定式化した最初のものである。
SAC、PPO、A2Cといった有名な強化学習アルゴリズムを環境に適用する。
論文 参考訳(メタデータ) (2022-12-28T21:45:59Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Finding Core Members of Cooperative Games using Agent-Based Modeling [0.0]
エージェント・ベース・モデリング(ABM)は、社会現象の洞察を得るための強力なパラダイムである。
本稿では,エージェントが連立関係を見つけられるように,AIMに組み込むアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-08-30T17:38:43Z) - Joint Policy Search for Multi-agent Collaboration with Imperfect
Information [31.559835225116473]
我々は,各情報集合に局所化されるポリシー変更に対して,ゲーム値のグローバルな変化を分解可能であることを示す。
本稿では,不完全な情報ゲームにおける協調エージェントの協調ポリシーを反復的に改善する共同ポリシー探索を提案する。
論文 参考訳(メタデータ) (2020-08-14T17:58:47Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。