論文の概要: Human-Level Performance in No-Press Diplomacy via Equilibrium Search
- arxiv url: http://arxiv.org/abs/2010.02923v2
- Date: Mon, 3 May 2021 14:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:12:34.846349
- Title: Human-Level Performance in No-Press Diplomacy via Equilibrium Search
- Title(参考訳): 平衡探索によるノープレス外交における人間レベル性能
- Authors: Jonathan Gray, Adam Lerer, Anton Bakhtin, Noam Brown
- Abstract要約: 本稿では,人間のデータに対する教師あり学習と,後悔の最小化による一段階のルックアヘッド探索を組み合わせた非抑圧型外交のエージェントについて述べる。
我々のエージェントは、過去の非プレス外交ボットのパフォーマンスを大きく上回っており、専門家の人間には説明不能であり、人気のある外交ウェブサイトで匿名ゲームを行う際には、人間のプレイヤーの上位2%にランクインしている。
- 参考スコア(独自算出の注目度): 29.858369754530905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior AI breakthroughs in complex games have focused on either the purely
adversarial or purely cooperative settings. In contrast, Diplomacy is a game of
shifting alliances that involves both cooperation and competition. For this
reason, Diplomacy has proven to be a formidable research challenge. In this
paper we describe an agent for the no-press variant of Diplomacy that combines
supervised learning on human data with one-step lookahead search via regret
minimization. Regret minimization techniques have been behind previous AI
successes in adversarial games, most notably poker, but have not previously
been shown to be successful in large-scale games involving cooperation. We show
that our agent greatly exceeds the performance of past no-press Diplomacy bots,
is unexploitable by expert humans, and ranks in the top 2% of human players
when playing anonymous games on a popular Diplomacy website.
- Abstract(参考訳): 複雑なゲームにおけるAIの突破口は、純粋に敵対的あるいは純粋に協力的な設定に焦点を当てている。
対照的に外交は協力と競争の両方を含む同盟をシフトさせるゲームである。
そのため、外交は深刻な研究課題であることが証明されている。
本稿では,人間のデータに対する教師あり学習と,後悔の最小化による一段階のルックアヘッド探索を組み合わせた非プレス型外交のエージェントについて述べる。
レジスト最小化技術は、対戦型ゲーム、特にポーカーでのAIの成功に遅れを取っているが、これまでは協力を含む大規模ゲームで成功しなかった。
我々のエージェントは、過去の非プレス外交ボットのパフォーマンスを大幅に上回り、専門家の人間には説明不能であり、人気のある外交ウェブサイトで匿名ゲームを行う際には、人間のプレイヤーの上位2%にランクインしている。
関連論文リスト
- More Victories, Less Cooperation: Assessing Cicero's Diplomacy Play [28.004172388400132]
この研究は、シケロがコミュニケーションで成功する程度を理解することを目的としている。
我々は、人間とCiceroで2ダースものゲームを実行し、200時間以上の人間プレイヤーの競争を繰り広げた。
AIは人間のプレイヤーを常に上回ることができるが、AIとヒューマンのコミュニケーションは、騙しや説得が難しいため、依然として制限されている。
論文 参考訳(メタデータ) (2024-06-07T05:03:44Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - No-Press Diplomacy from Scratch [26.36204634856853]
超人的なアクション空間を持つゲームにおけるアクション探索と平衡近似のアルゴリズムについて述べる。
エージェントであるDORAをスクラッチからトレーニングし、人気のある2人プレイの外交版を作成し、超人的なパフォーマンスを実現することを示す。
我々は、我々の手法をフルスケールのノープレッシャー外交に拡張し、初めて人間データなしでエージェントをゼロから訓練する。
論文 参考訳(メタデータ) (2021-10-06T17:12:50Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z) - Learning to Resolve Alliance Dilemmas in Many-Player Zero-Sum Games [22.38765498549914]
我々は多人数ゼロサムゲームの体系的な研究が人工知能研究の重要な要素であると主張している。
対称ゼロサム行列ゲームを用いて、アライアンス形成が社会的ジレンマと見なされることを示す。
我々は、強化学習をピアツーピア契約機構で強化し、アライアンスを発見・実施する方法を示す。
論文 参考訳(メタデータ) (2020-02-27T10:32:31Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。