論文の概要: Multi-Agent Coordination in Adversarial Environments through Signal
Mediated Strategies
- arxiv url: http://arxiv.org/abs/2102.05026v1
- Date: Tue, 9 Feb 2021 18:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:12:22.575842
- Title: Multi-Agent Coordination in Adversarial Environments through Signal
Mediated Strategies
- Title(参考訳): 信号媒介戦略による周辺環境におけるマルチエージェントコーディネーション
- Authors: Federico Cacciamani, Andrea Celli, Marco Ciccone, Nicola Gatti
- Abstract要約: チームメンバーはゲームの開始前に戦略を調整できるが、ゲームのプレイ段階ではコミュニケーションが取れない。
この設定では、エージェントのポリシーが分散的に実行されるため、モデルフリーのRLメソッドはコーディネーションをキャプチャできないことが多い。
我々は,従来の最先端マルチエージェントRLアルゴリズムが適用しなかった場合に,座標平衡に収束することを示す。
- 参考スコア(独自算出の注目度): 37.00818384785628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world scenarios involve teams of agents that have to coordinate
their actions to reach a shared goal. We focus on the setting in which a team
of agents faces an opponent in a zero-sum, imperfect-information game. Team
members can coordinate their strategies before the beginning of the game, but
are unable to communicate during the playing phase of the game. This is the
case, for example, in Bridge, collusion in poker, and collusion in bidding. In
this setting, model-free RL methods are oftentimes unable to capture
coordination because agents' policies are executed in a decentralized fashion.
Our first contribution is a game-theoretic centralized training regimen to
effectively perform trajectory sampling so as to foster team coordination. When
team members can observe each other actions, we show that this approach
provably yields equilibrium strategies. Then, we introduce a signaling-based
framework to represent team coordinated strategies given a buffer of past
experiences. Each team member's policy is parametrized as a neural network
whose output is conditioned on a suitable exogenous signal, drawn from a
learned probability distribution. By combining these two elements, we
empirically show convergence to coordinated equilibria in cases where previous
state-of-the-art multi-agent RL algorithms did not.
- Abstract(参考訳): 多くの現実世界のシナリオには、共通の目標を達成するために行動を調整する必要があるエージェントのチームが含まれる。
我々は、エージェントのチームがゼロサムで不完全な情報ゲームで対戦相手と対面する設定にフォーカスする。
チームのメンバーは、ゲームの開始前に戦略を調整することができますが、ゲームのプレイフェーズ中に通信することはできません。
これは例えば、ブリッジ、ポーカーにおける共謀、入札における共謀などである。
この設定では、エージェントのポリシーが分散的に実行されるため、モデルフリーのRLメソッドはコーディネーションをキャプチャできないことが多い。
我々の最初の貢献は、チームのコーディネーションを促進するために軌道サンプリングを効果的に行うゲーム理論集中型トレーニングレギュラーである。
チームメンバがお互いの行動を観察できれば、このアプローチが平衡戦略を証明できることがわかる。
次に,過去の経験をバッファーとして,チームの協調戦略を表現するためのシグナリングベースのフレームワークを提案する。
各チームメンバーの方針は、学習された確率分布から引き出された適切な外因性信号に出力が条件付けられたニューラルネットワークとしてパラメータ化される。
これら2つの要素を組み合わせることで、従来の最先端マルチエージェントRLアルゴリズムが実現しなかった場合の座標平衡への収束を実証的に示す。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - On-the-fly Strategy Adaptation for ad-hoc Agent Coordination [21.029009561094725]
協調的な環境での訓練エージェントは、現実世界の人間(および他のエージェント)と効果的に対話できるAIエージェントの約束を提供する。
主な焦点は、セルフプレイパラダイムである。
本稿では,他のエージェントの戦略に対する後続の信念を用いて,エージェント戦略をその場で適応させることにより,この問題を解決することを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:18:11Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Faster Algorithms for Optimal Ex-Ante Coordinated Collusive Strategies
in Extensive-Form Zero-Sum Games [123.76716667704625]
我々は,不完全情報ゼロサム拡張形式ゲームにおいて,対戦相手と対決する2人の選手のチームにとって最適な戦略を見つけることの課題に焦点をあてる。
この設定では、チームができる最善のことは、ゲーム開始時の関節(つまり相関した)確率分布から潜在的にランダム化された戦略(プレイヤー1人)のプロファイルをサンプリングすることである。
各プロファイルにランダム化されるのはチームメンバーの1人だけであるプロファイルのみを用いることで、そのような最適な分布を計算するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-21T17:51:57Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z) - Towards Open Ad Hoc Teamwork Using Graph-based Policy Learning [11.480994804659908]
我々は、さまざまなチーム構成の下でエージェントモデルと共同アクション値モデルを学ぶために、グラフニューラルネットワーク上に構築する。
私たちは、我々のアプローチが、他のエージェントが学習者に与える影響をうまくモデル化し、動的なチーム構成にしっかりと適応するポリシーを導いたことを実証的に実証します。
論文 参考訳(メタデータ) (2020-06-18T10:39:41Z) - Generating and Adapting to Diverse Ad-Hoc Cooperation Agents in Hanabi [4.777698073163644]
ハナビでは、コーディネートされたプレイヤーのグループは、事前に確立された慣習を有効活用することができるが、アドホックな設定でプレーするには、前回のコーディネートなしでパートナーの戦略に適応する必要がある。
本稿では,この目的のために多様な個体群を生成するための,有望なアルゴリズムのクラスとして品質多様性アルゴリズムを提案する。
また,エージェントは訓練中に多様な集団の恩恵を受けることができ,エージェントが知覚する行動ニッチに適応するためのシンプルな「メタストラテジー」を実装することができると仮定した。
論文 参考訳(メタデータ) (2020-04-28T05:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。