論文の概要: Discovering Diverse Multi-Agent Strategic Behavior via Reward
Randomization
- arxiv url: http://arxiv.org/abs/2103.04564v1
- Date: Mon, 8 Mar 2021 06:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 04:49:16.092320
- Title: Discovering Diverse Multi-Agent Strategic Behavior via Reward
Randomization
- Title(参考訳): 逆ランダム化による多エージェント戦略挙動の探索
- Authors: Zhenggang Tang, Chao Yu, Boyuan Chen, Huazhe Xu, Xiaolong Wang, Fei
Fang, Simon Du, Yu Wang, Yi Wu
- Abstract要約: 複雑なマルチエージェントゲームにおいて多様な戦略方針を発見する手法を提案する。
我々は新しいアルゴリズム Reward-Randomized Policy Gradient (RPG) を導出する。
RPGは、時間的信頼のジレンマに挑戦する際、複数の特徴的な人間解釈可能な戦略を発見することができる。
- 参考スコア(独自算出の注目度): 42.33734089361143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a simple, general and effective technique, Reward Randomization
for discovering diverse strategic policies in complex multi-agent games.
Combining reward randomization and policy gradient, we derive a new algorithm,
Reward-Randomized Policy Gradient (RPG). RPG is able to discover multiple
distinctive human-interpretable strategies in challenging temporal trust
dilemmas, including grid-world games and a real-world game Agar.io, where
multiple equilibria exist but standard multi-agent policy gradient algorithms
always converge to a fixed one with a sub-optimal payoff for every player even
using state-of-the-art exploration techniques. Furthermore, with the set of
diverse strategies from RPG, we can (1) achieve higher payoffs by fine-tuning
the best policy from the set; and (2) obtain an adaptive agent by using this
set of strategies as its training opponents. The source code and example videos
can be found in our website: https://sites.google.com/view/staghuntrpg.
- Abstract(参考訳): 我々は、複雑なマルチエージェントゲームにおける多様な戦略政策を発見するためのシンプルで一般的で効果的な手法である報酬ランダム化を提案します。
報酬ランダム化と政策勾配を組み合わせた新しいアルゴリズムである報酬ランダム化政策勾配(rpg)を導出する。
rpgは、グリッドワールドゲームや、複数の均衡が存在するが標準的なマルチエージェントポリシー勾配アルゴリズムがある実世界のゲームであるagar.ioなど、時間的信頼のジレンマに挑戦して、複数の識別可能な戦略を見つけることができる。
さらに,RPGの多様な戦略の集合を用いて,(1)最良政策を微調整して高い報酬を得られること,(2)この戦略の集合を訓練相手として活用することで適応的エージェントを得ることができる。
ソースコードとサンプルビデオは、当社のウェブサイト(https://sites.google.com/view/staghuntrpg.com)にあります。
関連論文リスト
- Fictitious Cross-Play: Learning Global Nash Equilibrium in Mixed
Cooperative-Competitive Games [14.979239870856535]
セルフプレイ(SP)は、競争ゲームを解くための一般的な強化学習フレームワークである。
本研究では,両フレームワークの利点を継承する新しいアルゴリズムであるFctitious Cross-Play (FXP) を開発する。
論文 参考訳(メタデータ) (2023-10-05T07:19:33Z) - Learning Diverse Risk Preferences in Population-based Self-play [23.07952140353786]
現在のセルフプレイアルゴリズムはエージェントを最適化し、現在のコピーや歴史的なコピーに対して期待される勝利率を最大化する。
我々は,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から,多様性を導入する。
本手法は,競技ゲームにおいて,同等あるいは優れた性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T06:56:02Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Continuously Discovering Novel Strategies via Reward-Switching Policy
Optimization [9.456388509414046]
Reward-Switching Policy Optimization (RSPO)
RSPOは、局所的に最適であり、既存のものと十分に異なる新しいポリシーを反復的に見つけることによって、複雑なRL環境における多様な戦略を発見するパラダイムである。
実験の結果、RSPOは単一エージェントの粒子世界タスクやMuJoCo連続制御からマルチエージェントのステージハントゲーム、StarCraftIIチャレンジまで、さまざまな領域で幅広い戦略を発見できることがわかった。
論文 参考訳(メタデータ) (2022-04-04T12:38:58Z) - Learning Meta Representations for Agents in Multi-Agent Reinforcement
Learning [12.170248966278281]
多エージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント番号に制限される。
本研究は,人口変動型MGを対象とするエージェントの創出に焦点をあてる。
一元的なポリシーを学ぶ代わりに、各エージェントは、様々なゲームにまたがる効果的な戦略を構成するポリシーセットを学ぶ。
論文 参考訳(メタデータ) (2021-08-30T04:30:53Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Modelling Behavioural Diversity for Learning in Open-Ended Games [15.978932309579013]
ゲームにおける行動の多様性を幾何学的に解釈する。
DPP(Emphdeterminantal point process)に基づく新しい多様性指標を提案する。
多様なベストレスポンスのユニークさと、2プレイヤーゲームにおけるアルゴリズムの収束性を証明する。
論文 参考訳(メタデータ) (2021-03-14T13:42:39Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。