論文の概要: Joint Policy Search for Multi-agent Collaboration with Imperfect
Information
- arxiv url: http://arxiv.org/abs/2008.06495v5
- Date: Sun, 6 Dec 2020 01:10:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 16:36:05.011901
- Title: Joint Policy Search for Multi-agent Collaboration with Imperfect
Information
- Title(参考訳): 不完全情報を用いたマルチエージェント協調のための共同政策探索
- Authors: Yuandong Tian, Qucheng Gong, Tina Jiang
- Abstract要約: 我々は,各情報集合に局所化されるポリシー変更に対して,ゲーム値のグローバルな変化を分解可能であることを示す。
本稿では,不完全な情報ゲームにおける協調エージェントの協調ポリシーを反復的に改善する共同ポリシー探索を提案する。
- 参考スコア(独自算出の注目度): 31.559835225116473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To learn good joint policies for multi-agent collaboration with imperfect
information remains a fundamental challenge. While for two-player zero-sum
games, coordinate-ascent approaches (optimizing one agent's policy at a time,
e.g., self-play) work with guarantees, in multi-agent cooperative setting they
often converge to sub-optimal Nash equilibrium. On the other hand, directly
modeling joint policy changes in imperfect information game is nontrivial due
to complicated interplay of policies (e.g., upstream updates affect downstream
state reachability). In this paper, we show global changes of game values can
be decomposed to policy changes localized at each information set, with a novel
term named policy-change density. Based on this, we propose Joint Policy
Search(JPS) that iteratively improves joint policies of collaborative agents in
imperfect information games, without re-evaluating the entire game. On
multi-agent collaborative tabular games, JPS is proven to never worsen
performance and can improve solutions provided by unilateral approaches (e.g,
CFR), outperforming algorithms designed for collaborative policy learning (e.g.
BAD). Furthermore, for real-world games, JPS has an online form that naturally
links with gradient updates. We test it to Contract Bridge, a 4-player
imperfect-information game where a team of $2$ collaborates to compete against
the other. In its bidding phase, players bid in turn to find a good contract
through a limited information channel. Based on a strong baseline agent that
bids competitive bridge purely through domain-agnostic self-play, JPS improves
collaboration of team players and outperforms WBridge5, a championship-winning
software, by $+0.63$ IMPs (International Matching Points) per board over 1k
games, substantially better than previous SoTA ($+0.41$ IMPs/b) under
Double-Dummy evaluation.
- Abstract(参考訳): 不完全な情報とマルチエージェント協調のための良い共同政策を学ぶことは、依然として根本的な課題である。
2人のプレイヤーのゼロサムゲームでは、座標平均的なアプローチ(例えば、あるエージェントのポリシーを一度に最適化するなど)は保証とともに働くが、マルチエージェント協調環境では、しばしば準最適ナッシュ均衡に収束する。
一方で、不完全な情報ゲームにおけるジョイントポリシーの変更を直接モデリングすることは、複雑なポリシーの相互作用(例えば、アップストリーム更新がダウンストリームの状態到達可能性に影響を与える)による非自明である。
本稿では,ゲーム価値のグローバル変化を,各情報集合にローカライズされたポリシー変化に分解し,新しい用語であるポリシー変化密度(policy-change density)を用いて示す。
そこで我々は,不完全な情報ゲームにおける協調エージェントの協調ポリシーを,ゲーム全体を再評価することなく反復的に改善するジョイントポリシー検索(JPS)を提案する。
マルチエージェント・コラボレーティブ・テーブルゲームでは、jpsはパフォーマンスを悪化させることはないことが証明され、一方的なアプローチ(cfrなど)によって提供されるソリューションを改善できる。
さらに、現実世界のゲームでは、JPSはオンライン形式で、グラデーションアップデートと自然にリンクする。
Contract Bridgeは2ドル(約2万2000円)のチームが互いに競争するために協力する4人プレイヤの不完全な情報ゲームです。
入札段階では、プレイヤーは限られた情報チャンネルを通じて良い契約を見つけるために入札を行う。
ドメインに依存しない自己プレーで純粋に競争橋を入札する強力なベースラインエージェントに基づいて、JPSはチームプレーヤーのコラボレーションを改善し、チャンピオンシップのソフトウェアであるWBridge5を1k以上のボード当たり$+0.63$ IMPs(International Matching Points)で、以前のSoTA(+0.41$ IMPs/b)よりも大幅に改善した。
関連論文リスト
- N-Agent Ad Hoc Teamwork [36.10108537776956]
協調的マルチエージェント行動の学習への現在のアプローチは、比較的限定的な設定を前提としている。
本稿では,この問題を定式化し,エージェントモデリングを用いたポリシー最適化(POAM)アルゴリズムを提案する。
POAMは、NAHT問題に対するポリシーグラデーションであり、マルチエージェント強化学習アプローチであり、多様なチームメイト行動への適応を可能にする。
論文 参考訳(メタデータ) (2024-04-16T17:13:08Z) - Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - Fictitious Cross-Play: Learning Global Nash Equilibrium in Mixed
Cooperative-Competitive Games [14.979239870856535]
セルフプレイ(SP)は、競争ゲームを解くための一般的な強化学習フレームワークである。
本研究では,両フレームワークの利点を継承する新しいアルゴリズムであるFctitious Cross-Play (FXP) を開発する。
論文 参考訳(メタデータ) (2023-10-05T07:19:33Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムのステートワイド平均ポリシはゲームの近似ナッシュ平衡(NE)に収束することを示す。
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z) - Multi-Agent Coordination in Adversarial Environments through Signal
Mediated Strategies [37.00818384785628]
チームメンバーはゲームの開始前に戦略を調整できるが、ゲームのプレイ段階ではコミュニケーションが取れない。
この設定では、エージェントのポリシーが分散的に実行されるため、モデルフリーのRLメソッドはコーディネーションをキャプチャできないことが多い。
我々は,従来の最先端マルチエージェントRLアルゴリズムが適用しなかった場合に,座標平衡に収束することを示す。
論文 参考訳(メタデータ) (2021-02-09T18:44:16Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。