論文の概要: Learning to Play No-Press Diplomacy with Best Response Policy Iteration
- arxiv url: http://arxiv.org/abs/2006.04635v4
- Date: Tue, 4 Jan 2022 15:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 00:15:48.847196
- Title: Learning to Play No-Press Diplomacy with Best Response Policy Iteration
- Title(参考訳): ベストレスポンス政策イテレーションでノープレス外交をプレイする学習
- Authors: Thomas Anthony, Tom Eccles, Andrea Tacchetti, J\'anos Kram\'ar, Ian
Gemp, Thomas C. Hudson, Nicolas Porcel, Marc Lanctot, Julien P\'erolat,
Richard Everett, Roman Werpachowski, Satinder Singh, Thore Graepel, and Yoram
Bachrach
- Abstract要約: 7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 31.367850729299665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep reinforcement learning (RL) have led to considerable
progress in many 2-player zero-sum games, such as Go, Poker and Starcraft. The
purely adversarial nature of such games allows for conceptually simple and
principled application of RL methods. However real-world settings are
many-agent, and agent interactions are complex mixtures of common-interest and
competitive aspects. We consider Diplomacy, a 7-player board game designed to
accentuate dilemmas resulting from many-agent interactions. It also features a
large combinatorial action space and simultaneous moves, which are challenging
for RL algorithms. We propose a simple yet effective approximate best response
operator, designed to handle large combinatorial action spaces and simultaneous
moves. We also introduce a family of policy iteration methods that approximate
fictitious play. With these methods, we successfully apply RL to Diplomacy: we
show that our agents convincingly outperform the previous state-of-the-art, and
game theoretic equilibrium analysis shows that the new process yields
consistent improvements.
- Abstract(参考訳): 近年の強化学習(RL)の進歩は、Go、Poker、Starcraftなど、多くの2プレイヤーゼロサムゲームにおいて大きな進歩をもたらした。
そのようなゲームの純粋に敵対的な性質は、概念的に単純かつ原則的にrl法の応用を可能にする。
しかし、現実世界の設定は多目的であり、エージェントの相互作用は共通興味と競争の側面の複雑な混合である。
我々は,多エージェントインタラクションから生じるジレンマを強調するために設計された7人のボードゲームである外交を考える。
また、大きな組合せアクション空間と同時移動を備えており、RLアルゴリズムでは困難である。
そこで本稿では,大規模な組合せ行動空間と同時動作を扱うための,シンプルで効果的な最適応答演算子を提案する。
我々はまた、架空のプレーを近似するポリシー反復手法のファミリーも導入する。
これらの手法により、我々はRLを外交に応用することに成功し、我々のエージェントが従来の最先端技術よりも確実に優れていることを示すとともに、ゲーム理論平衡分析により、新しいプロセスが一貫した改善をもたらすことを示す。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - Fictitious Cross-Play: Learning Global Nash Equilibrium in Mixed
Cooperative-Competitive Games [14.979239870856535]
セルフプレイ(SP)は、競争ゲームを解くための一般的な強化学習フレームワークである。
本研究では,両フレームワークの利点を継承する新しいアルゴリズムであるFctitious Cross-Play (FXP) を開発する。
論文 参考訳(メタデータ) (2023-10-05T07:19:33Z) - ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。
本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-20T23:55:30Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Reinforcement Learning Agents in Colonel Blotto [0.0]
エージェントベースモデルの特定の例に着目し、強化学習(RL)を用いてエージェントの環境における行動の訓練を行う。
我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。
また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。
論文 参考訳(メタデータ) (2022-04-04T16:18:01Z) - Reinforcement Learning In Two Player Zero Sum Simultaneous Action Games [0.0]
2人のプレイヤーのゼロサム同時アクションゲームは、ビデオゲーム、金融市場、戦争、ビジネスコンペティション、その他多くの設定で一般的である。
本稿では,2人のプレイヤーのゼロサム同時アクションゲームにおける強化学習の基本概念を紹介し,このタイプのゲームがもたらすユニークな課題について論じる。
本稿では,これらの課題に対処する新たなエージェントを2つ紹介する。
論文 参考訳(メタデータ) (2021-10-10T16:03:44Z) - No-Press Diplomacy from Scratch [26.36204634856853]
超人的なアクション空間を持つゲームにおけるアクション探索と平衡近似のアルゴリズムについて述べる。
エージェントであるDORAをスクラッチからトレーニングし、人気のある2人プレイの外交版を作成し、超人的なパフォーマンスを実現することを示す。
我々は、我々の手法をフルスケールのノープレッシャー外交に拡張し、初めて人間データなしでエージェントをゼロから訓練する。
論文 参考訳(メタデータ) (2021-10-06T17:12:50Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Learning Monopoly Gameplay: A Hybrid Model-Free Deep Reinforcement
Learning and Imitation Learning Approach [31.066718635447746]
強化学習(RL)は、環境と相互作用するエージェントに依存し、それによって受け取った報酬の累積合計を最大化します。
マルチプレイヤーのモノポリーゲームでは、プレイヤーは取引など複雑なアクションを含む毎ターンに複数の決定をしなければならない。
本稿では,モノポリーの勝利戦略を再生および学習できるハイブリッドモデルフリーディープRL(DRL)アプローチについて紹介する。
論文 参考訳(メタデータ) (2021-03-01T01:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。