論文の概要: No-Press Diplomacy from Scratch
- arxiv url: http://arxiv.org/abs/2110.02924v1
- Date: Wed, 6 Oct 2021 17:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 17:38:14.189860
- Title: No-Press Diplomacy from Scratch
- Title(参考訳): ゼロからノープレス外交
- Authors: Anton Bakhtin, David Wu, Adam Lerer, Noam Brown
- Abstract要約: 超人的なアクション空間を持つゲームにおけるアクション探索と平衡近似のアルゴリズムについて述べる。
エージェントであるDORAをスクラッチからトレーニングし、人気のある2人プレイの外交版を作成し、超人的なパフォーマンスを実現することを示す。
我々は、我々の手法をフルスケールのノープレッシャー外交に拡張し、初めて人間データなしでエージェントをゼロから訓練する。
- 参考スコア(独自算出の注目度): 26.36204634856853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior AI successes in complex games have largely focused on settings with at
most hundreds of actions at each decision point. In contrast, Diplomacy is a
game with more than 10^20 possible actions per turn. Previous attempts to
address games with large branching factors, such as Diplomacy, StarCraft, and
Dota, used human data to bootstrap the policy or used handcrafted reward
shaping. In this paper, we describe an algorithm for action exploration and
equilibrium approximation in games with combinatorial action spaces. This
algorithm simultaneously performs value iteration while learning a policy
proposal network. A double oracle step is used to explore additional actions to
add to the policy proposals. At each state, the target state value and policy
for the model training are computed via an equilibrium search procedure. Using
this algorithm, we train an agent, DORA, completely from scratch for a popular
two-player variant of Diplomacy and show that it achieves superhuman
performance. Additionally, we extend our methods to full-scale no-press
Diplomacy and for the first time train an agent from scratch with no human
data. We present evidence that this agent plays a strategy that is incompatible
with human-data bootstrapped agents. This presents the first strong evidence of
multiple equilibria in Diplomacy and suggests that self play alone may be
insufficient for achieving superhuman performance in Diplomacy.
- Abstract(参考訳): 複雑なゲームにおけるAIの成功は、決定ポイント毎に少なくとも数百のアクションで設定することに集中している。
対照的に、外交はターン当たり10^20以上のアクションを持つゲームである。
外交、StarCraft、Dotaといった大きな分岐要素を持つゲームに対処する以前の試みでは、ポリシーのブートストラップや手作りの報酬形成に人的データを使用した。
本稿では,組み合わせアクション空間を持つゲームにおける動作探索と平衡近似のアルゴリズムについて述べる。
このアルゴリズムは、ポリシー提案ネットワークを学習しながら、同時に価値イテレーションを行う。
ダブルオラクルのステップは、ポリシー提案に追加するための追加アクションを探求するために使用されます。
各状態において、モデルトレーニングの目標状態値とポリシーは平衡探索手順を介して計算される。
このアルゴリズムを用いて,Diplomacy の2人プレーヤ版に対して,エージェントDORAを完全にゼロからトレーニングし,超人的なパフォーマンスを実現することを示す。
さらに、我々の手法をフルスケールのノープレッシャー外交に拡張し、初めて人間データなしでエージェントをゼロから訓練します。
本稿では、このエージェントが、人間データブートストラップエージェントと互換性のない戦略を担っていることを示す。
これは外交における多重均衡の最初の強い証拠であり、外交における超人的業績を達成するには自己遊びだけでは不十分であることを示唆している。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - Discovering Diverse Multi-Agent Strategic Behavior via Reward
Randomization [42.33734089361143]
複雑なマルチエージェントゲームにおいて多様な戦略方針を発見する手法を提案する。
我々は新しいアルゴリズム Reward-Randomized Policy Gradient (RPG) を導出する。
RPGは、時間的信頼のジレンマに挑戦する際、複数の特徴的な人間解釈可能な戦略を発見することができる。
論文 参考訳(メタデータ) (2021-03-08T06:26:55Z) - Human-Level Performance in No-Press Diplomacy via Equilibrium Search [29.858369754530905]
本稿では,人間のデータに対する教師あり学習と,後悔の最小化による一段階のルックアヘッド探索を組み合わせた非抑圧型外交のエージェントについて述べる。
我々のエージェントは、過去の非プレス外交ボットのパフォーマンスを大きく上回っており、専門家の人間には説明不能であり、人気のある外交ウェブサイトで匿名ゲームを行う際には、人間のプレイヤーの上位2%にランクインしている。
論文 参考訳(メタデータ) (2020-10-06T01:28:34Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Deep RL Agent for a Real-Time Action Strategy Game [0.3867363075280543]
1対1のアクション戦略ゲームであるHeroic-Magic Duelをベースとした強化学習環境を導入する。
私たちの主な貢献は、競争レベルでゲームをする深層強化学習エージェントです。
私たちの最高のセルフプレイエージェントは、既存のAIに対して約65%の勝利率と、トップヒューマンプレイヤーに対して50%以上の勝利率を得ることができます。
論文 参考訳(メタデータ) (2020-02-15T01:09:56Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。