論文の概要: Leading the Pack: N-player Opponent Shaping
- arxiv url: http://arxiv.org/abs/2312.12564v2
- Date: Tue, 26 Dec 2023 11:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-28 01:26:12.660890
- Title: Leading the Pack: N-player Opponent Shaping
- Title(参考訳): パックのリード:N-player Opponent Shaping
- Authors: Alexandra Souly, Timon Willi, Akbir Khan, Robert Kirk, Chris Lu,
Edward Grefenstette, Tim Rockt\"aschel
- Abstract要約: 我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
- 参考スコア(独自算出の注目度): 52.682734939786464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning solutions have great success in the 2-player general
sum setting. In this setting, the paradigm of Opponent Shaping (OS), in which
agents account for the learning of their co-players, has led to agents which
are able to avoid collectively bad outcomes, whilst also maximizing their
reward. These methods have currently been limited to 2-player game. However,
the real world involves interactions with many more agents, with interactions
on both local and global scales. In this paper, we extend Opponent Shaping (OS)
methods to environments involving multiple co-players and multiple shaping
agents. We evaluate on over 4 different environments, varying the number of
players from 3 to 5, and demonstrate that model-based OS methods converge to
equilibrium with better global welfare than naive learning. However, we find
that when playing with a large number of co-players, OS methods' relative
performance reduces, suggesting that in the limit OS methods may not perform
well. Finally, we explore scenarios where more than one OS method is present,
noticing that within games requiring a majority of cooperating agents, OS
methods converge to outcomes with poor global welfare.
- Abstract(参考訳): 強化学習ソリューションは、2人の総和設定で大きな成功を収める。
この設定では、エージェントが共同プレイヤの学習に責任を負う、対向的シェーピング(OS)のパラダイムが、全体として悪い結果を回避し、報酬を最大化するエージェントへと導いてきた。
この方法は現在2人のプレイヤーに制限されている。
しかし、現実の世界には、多くのエージェントとの相互作用があり、ローカルスケールとグローバルスケールの両方で相互作用する。
本稿では,複数のコプレーヤと複数のシェーピングエージェントを含む環境に対して,対向シェーピング(os)手法を拡張する。
我々は,3から5までのプレイヤー数が異なる4つの異なる環境上で評価を行い,モデルベースのOS手法がナイーブラーニングよりも優れたグローバル福祉と均衡に収束することを実証した。
しかし,多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
最後に,複数のosメソッドが存在するシナリオを考察し,協調エージェントの多数を必要とするゲームでは,osメソッドがグローバル福祉の貧弱な結果に収束することに注目した。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Scaling Opponent Shaping to High Dimensional Games [17.27358464280679]
時間的に拡張されたアクションと長時間の水平線を持つ汎用ゲームに対するOSベースのアプローチを開発する。
文献からの難易度の設定において,Shaperは個人的,集団的成果の向上につながることを示す。
論文 参考訳(メタデータ) (2023-12-19T20:05:23Z) - Fictitious Cross-Play: Learning Global Nash Equilibrium in Mixed
Cooperative-Competitive Games [14.979239870856535]
セルフプレイ(SP)は、競争ゲームを解くための一般的な強化学習フレームワークである。
本研究では,両フレームワークの利点を継承する新しいアルゴリズムであるFctitious Cross-Play (FXP) を開発する。
論文 参考訳(メタデータ) (2023-10-05T07:19:33Z) - MAESTRO: Open-Ended Environment Design for Multi-Agent Reinforcement
Learning [22.28076947612619]
オープンエンドラーニングのためのマルチエージェント環境設計ストラテジスト(MAESTRO)を紹介する。
MAESTROは、2プレイヤーゼロサム設定のための最初のマルチエージェントUEDアプローチである。
実験の結果,MAESTROは,対戦型2プレーヤゲームにおいて,強力なベースラインを達成していることがわかった。
論文 参考訳(メタデータ) (2023-03-06T18:57:41Z) - ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。
本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-20T23:55:30Z) - An Instance-Dependent Analysis for the Cooperative Multi-Player
Multi-Armed Bandit [93.97385339354318]
マルチプレイヤーマルチアーマッドバンドにおける情報共有と協調の課題について検討する。
まず, プレイヤーの最適度差を推定するために, 逐次的除去戦略への簡単な修正が可能であることを示す。
第2に,第1の結果を利用して,衝突の小さな報奨をプレイヤー間の協調に役立てる通信プロトコルを設計する。
論文 参考訳(メタデータ) (2021-11-08T23:38:47Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。