論文の概要: Mastering Zero-Shot Interactions in Cooperative and Competitive Simultaneous Games
- arxiv url: http://arxiv.org/abs/2402.03136v2
- Date: Tue, 11 Jun 2024 12:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 22:42:29.117397
- Title: Mastering Zero-Shot Interactions in Cooperative and Competitive Simultaneous Games
- Title(参考訳): 協調・競争同時ゲームにおけるゼロショットインタラクションのマスタリング
- Authors: Yannik Mahlau, Frederik Schubert, Bodo Rosenhahn,
- Abstract要約: アルバトロスはバトルスネークの競争ゲームで弱いエージェントを利用することができる。
これは、協調オーバークッキングベンチマークの以前の技術状況と比較して37.6%改善している。
- 参考スコア(独自算出の注目度): 19.46888484570957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The combination of self-play and planning has achieved great successes in sequential games, for instance in Chess and Go. However, adapting algorithms such as AlphaZero to simultaneous games poses a new challenge. In these games, missing information about concurrent actions of other agents is a limiting factor as they may select different Nash equilibria or do not play optimally at all. Thus, it is vital to model the behavior of the other agents when interacting with them in simultaneous games. To this end, we propose Albatross: AlphaZero for Learning Bounded-rational Agents and Temperature-based Response Optimization using Simulated Self-play. Albatross learns to play the novel equilibrium concept of a Smooth Best Response Logit Equilibrium (SBRLE), which enables cooperation and competition with agents of any playing strength. We perform an extensive evaluation of Albatross on a set of cooperative and competitive simultaneous perfect-information games. In contrast to AlphaZero, Albatross is able to exploit weak agents in the competitive game of Battlesnake. Additionally, it yields an improvement of 37.6% compared to previous state of the art in the cooperative Overcooked benchmark.
- Abstract(参考訳): セルフプレイとプランニングの組み合わせは,例えばChessやGoなど,シーケンシャルなゲームで大きな成功を収めています。
しかし、AlphaZeroのようなアルゴリズムを同時ゲームに適用することは新たな課題となる。
これらのゲームでは、他のエージェントの同時動作に関する情報が欠落することは、異なるナッシュ平衡を選択するか、最適にプレーしないかという制限要因となる。
したがって、同時ゲームで他のエージェントと対話する際には、他のエージェントの振る舞いをモデル化することが不可欠である。
そこで我々はAlbatross: AlphaZero for Learning bounded-rational Agents and temperature-based Response Optimization using Simulated Self-playを提案する。
アルバトロスはSBRLE(Smooth Best Response Logit Equilibrium)という新しい平衡概念の演奏を学び、任意の演奏力を持つエージェントとの協調と競争を可能にした。
我々は,協調的かつ競争的な完全情報ゲームセット上で,アルバトロスの広範な評価を行う。
AlphaZeroとは対照的に、AlbatrossはBattlesnakeの対戦ゲームにおいて弱いエージェントを利用することができる。
さらに、前回のOvercookedベンチマークと比べて37.6%改善している。
関連論文リスト
- Convex Markov Games: A Framework for Fairness, Imitation, and Creativity in Multi-Agent Learning [31.958202912400925]
コンベックス・マルコフゲーム(英語版)のクラスを導入し、占有度よりも一般的なコンベックス・プレイスを可能にする。
無限の時間的地平線とマルコフゲームよりも厳密な一般性にもかかわらず、純粋な戦略 ナッシュ平衡は厳密な凸性の下で存在する。
我々の実験は、最後通しゲームにおける人間の選択を模倣し、繰り返しの囚人のジレンマに対する新しい解決策を明らかにし、反復的な非対称調整ゲームにおいて公正な解決策を見つける。
論文 参考訳(メタデータ) (2024-10-22T00:55:04Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - How Bad is Selfish Driving? Bounding the Inefficiency of Equilibria in
Urban Driving Games [64.71476526716668]
我々は,任意の平衡選手がプレーに同意するであろう効率について検討する。
我々は、アナーキーの価格に関する既存の境界を洗練させる保証を得る。
提案手法はオープンループ軌道に対する懸念を保証しているが,エージェントがクローズドループポリシーを採用する場合においても,効率的な平衡を観測する。
論文 参考訳(メタデータ) (2022-10-24T09:32:40Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Three-Player Game Training Dynamics [77.34726150561087]
単純化されたバイリニアスムースゲームの拡張版を用いて,3人プレイヤゲームトレーニングのダイナミクスを探索する。
ほとんどの場合、三線型ゲームはナッシュ均衡に収束しない。
更新と同時更新の交互化に加えて,新たな更新順序--maximizer-first-を探索する。
論文 参考訳(メタデータ) (2022-08-12T23:57:44Z) - Efficiently Computing Nash Equilibria in Adversarial Team Markov Games [19.717850955051837]
我々は,同じプレイヤーが対戦相手と競合するゲームのクラスを紹介する。
この設定により、ゼロサムマルコフゲームの可能性ゲームの統一処理が可能になる。
我々の主な貢献は、対戦チームマルコフゲームにおける固定的な$epsilon$-approximate Nash平衡を計算するための最初のアルゴリズムである。
論文 参考訳(メタデータ) (2022-08-03T16:41:01Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Combining Deep Reinforcement Learning and Search for
Imperfect-Information Games [30.520629802135574]
本稿では,自己再生強化学習と探索のためのフレームワークであるReBeLを,ゼロサムゲームにおけるナッシュ均衡に確実に収束させる。
また、ReBeLは、従来のポーカーAIよりもはるかに少ないドメイン知識を使用しながら、制限なしのテキサスホールド'emポーカーのパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-07-27T15:21:22Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z) - Learning to Resolve Alliance Dilemmas in Many-Player Zero-Sum Games [22.38765498549914]
我々は多人数ゼロサムゲームの体系的な研究が人工知能研究の重要な要素であると主張している。
対称ゼロサム行列ゲームを用いて、アライアンス形成が社会的ジレンマと見なされることを示す。
我々は、強化学習をピアツーピア契約機構で強化し、アライアンスを発見・実施する方法を示す。
論文 参考訳(メタデータ) (2020-02-27T10:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。