論文の概要: Reinforcement Learning In Two Player Zero Sum Simultaneous Action Games
- arxiv url: http://arxiv.org/abs/2110.04835v1
- Date: Sun, 10 Oct 2021 16:03:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 14:14:39.056595
- Title: Reinforcement Learning In Two Player Zero Sum Simultaneous Action Games
- Title(参考訳): 2人のプレーヤーゼロサム同時アクションゲームにおける強化学習
- Authors: Patrick Phillips
- Abstract要約: 2人のプレイヤーのゼロサム同時アクションゲームは、ビデオゲーム、金融市場、戦争、ビジネスコンペティション、その他多くの設定で一般的である。
本稿では,2人のプレイヤーのゼロサム同時アクションゲームにおける強化学習の基本概念を紹介し,このタイプのゲームがもたらすユニークな課題について論じる。
本稿では,これらの課題に対処する新たなエージェントを2つ紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two player zero sum simultaneous action games are common in video games,
financial markets, war, business competition, and many other settings. We first
introduce the fundamental concepts of reinforcement learning in two player zero
sum simultaneous action games and discuss the unique challenges this type of
game poses. Then we introduce two novel agents that attempt to handle these
challenges by using joint action Deep Q-Networks (DQN). The first agent, called
the Best Response AgenT (BRAT), builds an explicit model of its opponent's
policy using imitation learning, and then uses this model to find the best
response to exploit the opponent's strategy. The second agent, Meta-Nash DQN,
builds an implicit model of its opponent's policy in order to produce a context
variable that is used as part of the Q-value calculation. An explicit minimax
over Q-values is used to find actions close to Nash equilibrium. We find
empirically that both agents converge to Nash equilibrium in a self-play
setting for simple matrix games, while also performing well in games with
larger state and action spaces. These novel algorithms are evaluated against
vanilla RL algorithms as well as recent state of the art multi-agent and two
agent algorithms. This work combines ideas from traditional reinforcement
learning, game theory, and meta learning.
- Abstract(参考訳): 2人のプレイヤーゼロサム同時アクションゲームは、ビデオゲーム、金融市場、戦争、ビジネスコンペティション、その他多くの設定で一般的である。
まず,強化学習の基本概念を2つのプレイヤゼロサム同時アクションゲームで紹介し,この種のゲームポーズのユニークな課題について考察する。
次に,dqn (joint action deep q-networks) を用いて,これらの課題に対処する新たなエージェントを2つ紹介する。
第一のエージェントはbest response agent(brat)と呼ばれ、模倣学習を用いて相手のポリシーの明示的なモデルを構築し、そのモデルを使って相手の戦略を利用するのに最適なレスポンスを見つける。
第2のエージェントであるMeta-Nash DQNは、Q値計算の一部として使用されるコンテキスト変数を生成するために、相手のポリシーの暗黙のモデルを構築する。
Q-値上の明示的なミニマックスは、ナッシュ平衡に近い作用を見つけるために用いられる。
両エージェントが単純な行列ゲームに対する自己プレイ設定においてナッシュ平衡に収束すると同時に、より大きな状態とアクション空間を持つゲームでもうまく機能することを示す。
これらの新しいアルゴリズムは、バニラrlアルゴリズムと最新の art multi-agent アルゴリズムと 2 つのエージェントアルゴリズムに対して評価される。
この研究は、伝統的な強化学習、ゲーム理論、メタ学習のアイデアを組み合わせている。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Reinforcement Learning Agents in Colonel Blotto [0.0]
エージェントベースモデルの特定の例に着目し、強化学習(RL)を用いてエージェントの環境における行動の訓練を行う。
我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。
また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。
論文 参考訳(メタデータ) (2022-04-04T16:18:01Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Efficient Competitive Self-Play Policy Optimization [20.023522000925094]
対戦型ゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。
本手法は,複数のエージェントを同時に訓練し,単純な対戦ルールに基づいて知的に互いに相手として取り合う。
我々は,このアルゴリズムが凸凹ゲームにおいて高い確率で近似平衡に収束することを理論的に証明する。
論文 参考訳(メタデータ) (2020-09-13T21:01:38Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。