論文の概要: Resolving Implicit Coordination in Multi-Agent Deep Reinforcement
Learning with Deep Q-Networks & Game Theory
- arxiv url: http://arxiv.org/abs/2012.09136v1
- Date: Tue, 8 Dec 2020 17:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:03:09.121187
- Title: Resolving Implicit Coordination in Multi-Agent Deep Reinforcement
Learning with Deep Q-Networks & Game Theory
- Title(参考訳): ディープqネットワークとゲーム理論を用いた多エージェント深層強化学習における暗黙的コーディネーションの解消
- Authors: Griffin Adams, Sarguna Janani Padmanabhan, Shivang Shekhar
- Abstract要約: 深層強化学習における暗黙的協調の2つの大きな課題:非定常性と状態アクション空間の指数関数的成長。
ゲームタイプの知識は, Nash-Q よりも高速に収束し, 最適応答のミラー化を仮定する。
デュエリングネットワークアーキテクチャに触発されて,シングルエージェントとジョイントエージェントの両方の表現を学び,要素単位でそれらをマージする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address two major challenges of implicit coordination in multi-agent deep
reinforcement learning: non-stationarity and exponential growth of state-action
space, by combining Deep-Q Networks for policy learning with Nash equilibrium
for action selection. Q-values proxy as payoffs in Nash settings, and mutual
best responses define joint action selection. Coordination is implicit because
multiple/no Nash equilibria are resolved deterministically. We demonstrate that
knowledge of game type leads to an assumption of mirrored best responses and
faster convergence than Nash-Q. Specifically, the Friend-or-Foe algorithm
demonstrates signs of convergence to a Set Controller which jointly chooses
actions for two agents. This encouraging given the highly unstable nature of
decentralized coordination over joint actions. Inspired by the dueling network
architecture, which decouples the Q-function into state and advantage streams,
as well as residual networks, we learn both a single and joint agent
representation, and merge them via element-wise addition. This simplifies
coordination by recasting it is as learning a residual function. We also draw
high level comparative insights on key MADRL and game theoretic variables:
competitive vs. cooperative, asynchronous vs. parallel learning, greedy versus
socially optimal Nash equilibria tie breaking, and strategies for the no Nash
equilibrium case. We evaluate on 3 custom environments written in Python using
OpenAI Gym: a Predator Prey environment, an alternating Warehouse environment,
and a Synchronization environment. Each environment requires successively more
coordination to achieve positive rewards.
- Abstract(参考訳): 我々は,多エージェント深層強化学習における暗黙的コーディネーションの2つの大きな課題,非定常性と状態-行動空間の指数的成長を,政策学習のためのディープqネットワークと行動選択のためのnash平衡を組み合わせることで解決する。
Q値プロキシはNash設定のペイオフであり、相互のベストレスポンスは共同アクション選択を定義する。
多重/非ナッシュ平衡が決定論的に解決されるため、コーディネーションは暗黙的である。
ゲームタイプの知識は, Nash-Q よりも高速に収束し, 最適応答のミラー化を仮定する。
具体的には、Friend-or-Foeアルゴリズムは、2つのエージェントのアクションを共同で選択するセットコントローラへの収束の兆候を示す。
これは共同行動に対する分散協調の非常に不安定な性質を奨励した。
Q-関数を状態とアドバンストストリームに分離するデュエルネットワークアーキテクチャや残余ネットワークにインスパイアされた我々は、シングルエージェントとジョイントエージェントの表現を学習し、要素ワイド付加によってそれらをマージする。
これは、残関数を学ぶように再キャストすることでコーディネーションを単純化する。
また, 競争対協調, 非同期対並列学習, 欲と社会的に最適なnash平衡関係の破れ, ノナッシュ均衡の場合の戦略など, キーマドリルとゲーム理論変数について, 高いレベルの比較知見を導き出した。
OpenAI Gym: Predator Prey環境,交互ウェアハウス環境,Synchronization環境の3つのカスタム環境について検討した。
それぞれの環境は、ポジティブな報酬を達成するために、継続的に調整が必要です。
関連論文リスト
- Multi-agent Reinforcement Learning with Deep Networks for Diverse Q-Vectors [3.9801926395657325]
本稿では,Max,Nash,Maximinの戦略を用いて,様々なQベクトルを学習できるディープQ-networks(DQN)アルゴリズムを提案する。
このアプローチの有効性は、デュアルロボットアームが協力して鍋を持ち上げる環境で実証される。
論文 参考訳(メタデータ) (2024-06-12T03:30:10Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。
低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。
上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-20T16:05:04Z) - Network coevolution drives segregation and enhances Pareto optimal
equilibrium selection in coordination games [0.0]
エージェントの動作の変化とネットワークダイナミクスを結合した共進化モデルを分析する。
GCGのRDとUIには、可塑性の中間値の体系が存在する。
Coevolutionは、両方の更新ルールに対するペイオフ優位な平衡選択を強化する。
論文 参考訳(メタデータ) (2022-11-22T09:33:02Z) - Game-Theoretical Perspectives on Active Equilibria: A Preferred Solution
Concept over Nash Equilibria [61.093297204685264]
マルチエージェント強化学習における効果的なアプローチは,エージェントの学習プロセスを検討し,今後の政策に影響を与えることである。
この新たな解の概念は、ナッシュ均衡のような標準解の概念が活性平衡の特別な場合である、という一般的なものである。
我々は,ゲーム理論の観点から,ナッシュ平衡が知られている実例を綿密に研究することにより,アクティブ平衡を解析する。
論文 参考訳(メタデータ) (2022-10-28T14:45:39Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Learn to Match with No Regret: Reinforcement Learning in Markov Matching
Markets [151.03738099494765]
我々は、市場の両側でプランナーと戦略エージェントのセットを含むマルコフマッチング市場について検討する。
本稿では,楽観的な値反復と最大重みマッチングを組み合わせた強化学習フレームワークを提案する。
我々は,アルゴリズムがサブ線形後悔を実現することを証明した。
論文 参考訳(メタデータ) (2022-03-07T19:51:25Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。