論文の概要: Learning to Resolve Alliance Dilemmas in Many-Player Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2003.00799v1
- Date: Thu, 27 Feb 2020 10:32:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 08:24:39.254625
- Title: Learning to Resolve Alliance Dilemmas in Many-Player Zero-Sum Games
- Title(参考訳): 多人数ゼロサムゲームにおけるアライアンスジレンマ解消のための学習
- Authors: Edward Hughes, Thomas W. Anthony, Tom Eccles, Joel Z. Leibo, David
Balduzzi, Yoram Bachrach
- Abstract要約: 我々は多人数ゼロサムゲームの体系的な研究が人工知能研究の重要な要素であると主張している。
対称ゼロサム行列ゲームを用いて、アライアンス形成が社会的ジレンマと見なされることを示す。
我々は、強化学習をピアツーピア契約機構で強化し、アライアンスを発見・実施する方法を示す。
- 参考スコア(独自算出の注目度): 22.38765498549914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-sum games have long guided artificial intelligence research, since they
possess both a rich strategy space of best-responses and a clear evaluation
metric. What's more, competition is a vital mechanism in many real-world
multi-agent systems capable of generating intelligent innovations: Darwinian
evolution, the market economy and the AlphaZero algorithm, to name a few. In
two-player zero-sum games, the challenge is usually viewed as finding Nash
equilibrium strategies, safeguarding against exploitation regardless of the
opponent. While this captures the intricacies of chess or Go, it avoids the
notion of cooperation with co-players, a hallmark of the major transitions
leading from unicellular organisms to human civilization. Beyond two players,
alliance formation often confers an advantage; however this requires trust,
namely the promise of mutual cooperation in the face of incentives to defect.
Successful play therefore requires adaptation to co-players rather than the
pursuit of non-exploitability. Here we argue that a systematic study of
many-player zero-sum games is a crucial element of artificial intelligence
research. Using symmetric zero-sum matrix games, we demonstrate formally that
alliance formation may be seen as a social dilemma, and empirically that
na\"ive multi-agent reinforcement learning therefore fails to form alliances.
We introduce a toy model of economic competition, and show how reinforcement
learning may be augmented with a peer-to-peer contract mechanism to discover
and enforce alliances. Finally, we generalize our agent model to incorporate
temporally-extended contracts, presenting opportunities for further work.
- Abstract(参考訳): ゼロサムゲームは、優れた戦略空間と明確な評価基準の両方を持っているため、人工知能の研究を長い間導いてきた。
さらに、競争は、ダーウィンの進化、市場経済、AlphaZeroアルゴリズムなど、インテリジェントなイノベーションを生み出すことができる多くの現実世界のマルチエージェントシステムにおいて、重要なメカニズムである。
2人プレイのゼロサムゲームでは、挑戦は通常ナッシュ均衡戦略の発見と見なされ、相手に関係なく搾取から保護される。
これはチェスや囲碁の複雑さをとらえるが、単細胞生物から人間の文明への大きな転換を象徴する共同プレイヤとの協力の概念を避ける。
2人のプレイヤーを超えて、同盟の形成はしばしば優位性を与えるが、これは信頼、すなわち欠陥に対するインセンティブに直面した相互協力の約束を必要とする。
したがって、成功したプレイには、非爆発性の追求よりも、共同プレイヤーへの適応が必要である。
ここでは、多人数ゼロサムゲームの体系的研究が人工知能研究の重要な要素であると主張する。
対称ゼロサムマトリクスゲームを用いて,アライアンス形成を社会的ジレンマと見なすことができ,その結果,na\"ive multi-agent reinforcement learningではアライアンスの形成に失敗することを実証した。
我々は,経済競争の玩具モデルを紹介し,同盟を発見・実施するためのピアツーピア契約機構によって強化学習が強化される可能性を示す。
最後に,エージェントモデルを一般化して,時間的に拡張された契約を取り入れることで,さらなる作業の機会を提供する。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Formal Contracts Mitigate Social Dilemmas in Multi-Agent RL [4.969697978555126]
マルチエージェント強化学習(MARL)は、共通の環境で独立して行動する自律エージェントを訓練するための強力なツールである。
MARLは、個人インセンティブとグループインセンティブが多様化する際の準最適行動を引き起こす。
本稿では,事前に規定された条件下で,エージェントが自発的に報酬の束縛に同意するマルコフゲームの拡張を提案する。
論文 参考訳(メタデータ) (2022-08-22T17:42:03Z) - Cooperative Artificial Intelligence [0.0]
我々は,ゲーム理論と人工知能の交わりに関する研究の必要性を論じる。
本稿では,外部エージェントが人工学習者の協調を促進する方法について議論する。
また, 計画エージェントをオフにしても, 結果が一定のゲームにおいて安定であることを示す。
論文 参考訳(メタデータ) (2022-02-20T16:50:37Z) - Reinforcement Learning In Two Player Zero Sum Simultaneous Action Games [0.0]
2人のプレイヤーのゼロサム同時アクションゲームは、ビデオゲーム、金融市場、戦争、ビジネスコンペティション、その他多くの設定で一般的である。
本稿では,2人のプレイヤーのゼロサム同時アクションゲームにおける強化学習の基本概念を紹介し,このタイプのゲームがもたらすユニークな課題について論じる。
本稿では,これらの課題に対処する新たなエージェントを2つ紹介する。
論文 参考訳(メタデータ) (2021-10-10T16:03:44Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Evolutionary Game Theory Squared: Evolving Agents in Endogenously
Evolving Zero-Sum Games [27.510231246176033]
本稿では、エージェントとプレイするゲームの両方が戦略的に進化する競争環境のクラスを紹介し、分析する。
エージェントの人口は、現在の人口混合物に反対して進化するゼロサム競争で互いに競います。
驚くべきことに、エージェントとゲームのカオスな共進化にもかかわらず、システムは多くの規則性を示すことを証明しています。
論文 参考訳(メタデータ) (2020-12-15T15:54:46Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。