論文の概要: K-level Reasoning for Zero-Shot Coordination in Hanabi
- arxiv url: http://arxiv.org/abs/2207.07166v1
- Date: Thu, 14 Jul 2022 18:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 02:11:34.419296
- Title: K-level Reasoning for Zero-Shot Coordination in Hanabi
- Title(参考訳): ハナビにおけるゼロショット座標のKレベル推論
- Authors: Brandon Cui, Hengyuan Hu, Luis Pineda, Jakob N. Foerster
- Abstract要約: 我々は,ハナビにおいて,競争力のあるZSCとアドホックなチームプレイのパフォーマンスを得ることができることを示す。
また、最適な応答を伴う同期kレベルの推論という新しい手法も導入する。
- 参考スコア(独自算出の注目度): 26.38814779896388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The standard problem setting in cooperative multi-agent settings is self-play
(SP), where the goal is to train a team of agents that works well together.
However, optimal SP policies commonly contain arbitrary conventions
("handshakes") and are not compatible with other, independently trained agents
or humans. This latter desiderata was recently formalized by Hu et al. 2020 as
the zero-shot coordination (ZSC) setting and partially addressed with their
Other-Play (OP) algorithm, which showed improved ZSC and human-AI performance
in the card game Hanabi. OP assumes access to the symmetries of the environment
and prevents agents from breaking these in a mutually incompatible way during
training. However, as the authors point out, discovering symmetries for a given
environment is a computationally hard problem. Instead, we show that through a
simple adaption of k-level reasoning (KLR) Costa Gomes et al. 2006,
synchronously training all levels, we can obtain competitive ZSC and ad-hoc
teamplay performance in Hanabi, including when paired with a human-like proxy
bot. We also introduce a new method, synchronous-k-level reasoning with a best
response (SyKLRBR), which further improves performance on our synchronous KLR
by co-training a best response.
- Abstract(参考訳): 協調的なマルチエージェント設定における標準的な問題設定は、セルフプレイ(sp)である。
しかしながら、最適なSPポリシーは一般に任意の規約(ハンドシェイク)を含み、他の独立した訓練されたエージェントや人間と互換性がない。
この後者のデシラタは、最近Huらによってゼロショットコーディネート(ZSC)設定として公式化され、カードゲーム『ハナビ』でZSCと人間AIのパフォーマンスが改善されたOther-Play(OP)アルゴリズムで部分的に対処された。
opは環境の対称性へのアクセスを想定し、訓練中にエージェントが相互に互換性のない方法でこれらを壊すことを防止する。
しかし、著者らが指摘するように、ある環境に対する対称性の発見は計算的に難しい問題である。
代わりに、kレベル推論(KLR)の簡単な適応を通じて、2006年、Costa Gomesらは、すべてのレベルを同期的にトレーニングすることで、人間のようなプロキシボットとペアリングした場合を含む、競争力のあるZSCとアドホックなチームプレイのパフォーマンスを得ることができることを示す。
また、ベストレスポンス(syklrbr)を用いた同期kレベル推論法を導入し、ベストレスポンスを共学習することで、同期klrの性能をさらに向上させる。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Towards Few-shot Coordination: Revisiting Ad-hoc Teamplay Challenge In
the Game of Hanabi [15.917861586043813]
現状のZSCアルゴリズムは、異なる学習手法で訓練されたエージェントとペアリングした場合、性能が劣っていることを示す。
我々は,MARL手法の適応性を評価するために,ハナビと呼ばれる人気のある協調型マルチエージェントゲームに基づくフレームワークを構築した。
論文 参考訳(メタデータ) (2023-08-20T14:44:50Z) - Equivariant Networks for Zero-Shot Coordination [34.95582850032728]
Dec-POMDPのコーディネートを成功させるためには、エージェントは堅牢な戦略と、パートナーのための解釈可能なスタイルを採用する必要がある。
共通の失敗モードは対称性の破れであり、エージェントは等価だが相互に相容れない多くのポリシーのうちの1つに任意に収束する。
ゼロショット調整を改善するために環境対称性を効果的に活用する,Dec-POMDPにおける新しい同変ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-21T17:25:34Z) - Quasi-Equivalence Discovery for Zero-Shot Emergent Communication [63.175848843466845]
ゼロショットコーディネーション(ZSC)を実現するための新しい問題設定と準等価探索アルゴリズムを提案する。
これらの2つの要因が参照ゲームにおいて一意に最適なZSCポリシーをもたらすことを示す。
QEDはこの設定における対称性を反復的に発見することができ、最適なZSCポリシーに収束する。
論文 参考訳(メタデータ) (2021-03-14T23:42:37Z) - Multi-Agent Coordination in Adversarial Environments through Signal
Mediated Strategies [37.00818384785628]
チームメンバーはゲームの開始前に戦略を調整できるが、ゲームのプレイ段階ではコミュニケーションが取れない。
この設定では、エージェントのポリシーが分散的に実行されるため、モデルフリーのRLメソッドはコーディネーションをキャプチャできないことが多い。
我々は,従来の最先端マルチエージェントRLアルゴリズムが適用しなかった場合に,座標平衡に収束することを示す。
論文 参考訳(メタデータ) (2021-02-09T18:44:16Z) - High-Throughput Synchronous Deep RL [132.43861715707905]
HTS-RL(High-Throughput Synchronous Deep Reinforcement Learning)の提案
私たちは同時に学習とロールアウトを行い、古いポリシーを避けるシステム設計を考案します。
我々は,アタリゲームとGoogle Research Football環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-17T18:59:01Z) - Resolving Implicit Coordination in Multi-Agent Deep Reinforcement
Learning with Deep Q-Networks & Game Theory [0.0]
深層強化学習における暗黙的協調の2つの大きな課題:非定常性と状態アクション空間の指数関数的成長。
ゲームタイプの知識は, Nash-Q よりも高速に収束し, 最適応答のミラー化を仮定する。
デュエリングネットワークアーキテクチャに触発されて,シングルエージェントとジョイントエージェントの両方の表現を学び,要素単位でそれらをマージする。
論文 参考訳(メタデータ) (2020-12-08T17:30:47Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - "Other-Play" for Zero-Shot Coordination [21.607428852157273]
その他の遊び学習アルゴリズムは、より堅牢な戦略を探すことによって、セルフプレイを強化する。
本研究では,協力型カードゲーム「はなび」について検討し,OPエージェントが単独で訓練されたエージェントとペアを組むと,より高いスコアが得られることを示す。
論文 参考訳(メタデータ) (2020-03-06T00:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。