論文の概要: Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning
- arxiv url: http://arxiv.org/abs/2210.05492v1
- Date: Tue, 11 Oct 2022 14:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 15:20:13.123166
- Title: Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning
- Title(参考訳): ヒューマン・レギュラライズド・強化学習と計画によるノープレス外交の習得
- Authors: Anton Bakhtin, David J Wu, Adam Lerer, Jonathan Gray, Athul Paul
Jacob, Gabriele Farina, Alexander H Miller, Noam Brown
- Abstract要約: ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
- 参考スコア(独自算出の注目度): 95.78031053296513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: No-press Diplomacy is a complex strategy game involving both cooperation and
competition that has served as a benchmark for multi-agent AI research. While
self-play reinforcement learning has resulted in numerous successes in purely
adversarial games like chess, Go, and poker, self-play alone is insufficient
for achieving optimal performance in domains involving cooperation with humans.
We address this shortcoming by first introducing a planning algorithm we call
DiL-piKL that regularizes a reward-maximizing policy toward a human
imitation-learned policy. We prove that this is a no-regret learning algorithm
under a modified utility function. We then show that DiL-piKL can be extended
into a self-play reinforcement learning algorithm we call RL-DiL-piKL that
provides a model of human play while simultaneously training an agent that
responds well to this human model. We used RL-DiL-piKL to train an agent we
name Diplodocus. In a 200-game no-press Diplomacy tournament involving 62 human
participants spanning skill levels from beginner to expert, two Diplodocus
agents both achieved a higher average score than all other participants who
played more than two games, and ranked first and third according to an Elo
ratings model.
- Abstract(参考訳): No-press Diplomacyは、協力と競争の両方を含む複雑な戦略ゲームであり、マルチエージェントAI研究のベンチマークとして機能している。
自己プレイ強化学習はチェス、ゴー、ポーカーといった純粋に敵対的なゲームで多くの成功を収めているが、自己プレイだけでは人間との協力を伴う領域で最適なパフォーマンスを達成するには不十分である。
我々はまず,人間の模倣政策に対する報酬最大化政策を定式化するdil-piklと呼ばれる計画アルゴリズムを導入することで,この欠点に対処する。
修正ユーティリティ関数の下での学習アルゴリズムとして,これを証明した。
次に,人間の遊びのモデルを提供するrl-dil-piklと呼ばれる自己遊び強化学習アルゴリズムにdil-piklを拡張できることを示し,同時にこの人間モデルによく反応するエージェントを訓練する。
我々はRL-DiL-piKLを用いてDiplodocusというエージェントを訓練した。
2人のディプロドカスのエージェントは、初心者から専門家までスキルレベルにまたがる62人の人間が参加する200試合のノープレス外交トーナメントで、他の2人よりも平均得点が高く、エロ格付けモデルでは1位と3位にランクインした。
関連論文リスト
- Reinforcing Competitive Multi-Agents for Playing So Long Sucker [0.393259574660092]
本稿では,戦略ゲームSo Long Suckerにおける古典的深層学習(DRL)アルゴリズム,DQN,DDQN,Dueling DQNの使用について検討する。
研究の第一の目的は、古典的なDRL手法を用いて、ゲームのルールと戦略を自律エージェントに教えることである。
論文 参考訳(メタデータ) (2024-11-17T12:38:13Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Modeling Strong and Human-Like Gameplay with KL-Regularized Search [64.24339197581769]
我々は,多エージェント意思決定問題において,強いが人間的な政策を構築するという課題を考察する。
模倣学習は人間の行動を予測するのに効果的であるが、熟練した人間の強さと一致しない可能性がある。
チェスと囲碁において、モンテカルロ木探索を適用して、KLの分岐に基づく探索ポリシーを模倣学習ポリシーから規則化することで、人間の予測精度が高く、模倣ポリシーよりも強いポリシーを生成することを示す。
論文 参考訳(メタデータ) (2021-12-14T16:52:49Z) - No-Press Diplomacy from Scratch [26.36204634856853]
超人的なアクション空間を持つゲームにおけるアクション探索と平衡近似のアルゴリズムについて述べる。
エージェントであるDORAをスクラッチからトレーニングし、人気のある2人プレイの外交版を作成し、超人的なパフォーマンスを実現することを示す。
我々は、我々の手法をフルスケールのノープレッシャー外交に拡張し、初めて人間データなしでエージェントをゼロから訓練する。
論文 参考訳(メタデータ) (2021-10-06T17:12:50Z) - Learning Monopoly Gameplay: A Hybrid Model-Free Deep Reinforcement
Learning and Imitation Learning Approach [31.066718635447746]
強化学習(RL)は、環境と相互作用するエージェントに依存し、それによって受け取った報酬の累積合計を最大化します。
マルチプレイヤーのモノポリーゲームでは、プレイヤーは取引など複雑なアクションを含む毎ターンに複数の決定をしなければならない。
本稿では,モノポリーの勝利戦略を再生および学習できるハイブリッドモデルフリーディープRL(DRL)アプローチについて紹介する。
論文 参考訳(メタデータ) (2021-03-01T01:40:02Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Human-Level Performance in No-Press Diplomacy via Equilibrium Search [29.858369754530905]
本稿では,人間のデータに対する教師あり学習と,後悔の最小化による一段階のルックアヘッド探索を組み合わせた非抑圧型外交のエージェントについて述べる。
我々のエージェントは、過去の非プレス外交ボットのパフォーマンスを大きく上回っており、専門家の人間には説明不能であり、人気のある外交ウェブサイトで匿名ゲームを行う際には、人間のプレイヤーの上位2%にランクインしている。
論文 参考訳(メタデータ) (2020-10-06T01:28:34Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。