論文の概要: Behavioral Differences is the Key of Ad-hoc Team Cooperation in
Multiplayer Games Hanabi
- arxiv url: http://arxiv.org/abs/2303.06775v1
- Date: Sun, 12 Mar 2023 23:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 16:59:08.307157
- Title: Behavioral Differences is the Key of Ad-hoc Team Cooperation in
Multiplayer Games Hanabi
- Title(参考訳): マルチプレイヤーゲーム「はなび」におけるアドホックチーム協力の鍵となる行動差
- Authors: Hyeonchang Jeon and Kyung-Joong Kim
- Abstract要約: アドホックなチーム協力は、学習プロセスで見られていない他のプレイヤーと協力する問題である。
アドホックなチームコラボレーションの結果を,失敗,成功,シナジーに分析する。
本研究は,マルチプレイヤーゲームにおいて,アドホックなチームコラボレーションを成功させるために重要な要素の理解を深めるものである。
- 参考スコア(独自算出の注目度): 3.7202899712601964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ad-hoc team cooperation is the problem of cooperating with other players that
have not been seen in the learning process. Recently, this problem has been
considered in the context of Hanabi, which requires cooperation without
explicit communication with the other players. While in self-play strategies
cooperating on reinforcement learning (RL) process has shown success, there is
the problem of failing to cooperate with other unseen agents after the initial
learning is completed. In this paper, we categorize the results of ad-hoc team
cooperation into Failure, Success, and Synergy and analyze the associated
failures. First, we confirm that agents learning via RL converge to one
strategy each, but not necessarily the same strategy and that these agents can
deploy different strategies even though they utilize the same hyperparameters.
Second, we confirm that the larger the behavioral difference, the more
pronounced the failure of ad-hoc team cooperation, as demonstrated using
hierarchical clustering and Pearson correlation. We confirm that such agents
are grouped into distinctly different groups through hierarchical clustering,
such that the correlation between behavioral differences and ad-hoc team
performance is -0.978. Our results improve understanding of key factors to form
successful ad-hoc team cooperation in multi-player games.
- Abstract(参考訳): アドホックなチーム協力は、学習プロセスで見られていない他のプレイヤーと協力する問題である。
近年,他の選手との明示的なコミュニケーションを伴わずに協力する必要があるハナビの文脈において,この問題が検討されている。
強化学習(RL)プロセスに協力するセルフプレイ戦略は成功しているが、初期学習が完了すると、他の未確認エージェントと協力することができないという問題がある。
本稿では, アドホックなチームコラボレーションの結果を, 失敗, 成功, シナジーに分類し, 関連する失敗を分析した。
まず、RLを介して学習するエージェントは、それぞれ一つの戦略に収束するが、必ずしも同じ戦略ではなく、同じハイパーパラメータを使っても異なる戦略を展開できることを確認する。
第2に,行動の違いが大きいほど,階層的クラスタリングとピアソン相関を用いて実証したように,アドホックなチーム連携の失敗が顕著であることを確認した。
これらのエージェントは階層的クラスタリングによって異なるグループにグループ化されており、行動の違いとアドホックなチームパフォーマンスの相関関係は-0.978である。
本研究は,マルチプレイヤーゲームにおけるアドホックチームの協力を成功させるための重要な要因の理解を深める。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination [36.33334853998621]
協調的オープンエンド・ラーニング(COLE)フレームワークを導入し,学習における協調的非互換性を解決する。
COLEは、グラフ理論の観点を用いて、2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価し、特定する。
我々は,COLEが理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
論文 参考訳(メタデータ) (2023-06-05T16:51:38Z) - On-the-fly Strategy Adaptation for ad-hoc Agent Coordination [21.029009561094725]
協調的な環境での訓練エージェントは、現実世界の人間(および他のエージェント)と効果的に対話できるAIエージェントの約束を提供する。
主な焦点は、セルフプレイパラダイムである。
本稿では,他のエージェントの戦略に対する後続の信念を用いて,エージェント戦略をその場で適応させることにより,この問題を解決することを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:18:11Z) - Any-Play: An Intrinsic Augmentation for Zero-Shot Coordination [0.4153433779716327]
我々は、協調型AIを評価するための代替基準を定式化し、この基準を「アルゴリズム間クロスプレイ(inter-algorithm cross-play)」と呼ぶ。
このパラダイムでは,Other-Play や Off-Belief Learning といった,最先端の協調型AIアルゴリズムが低性能であることを示す。
本稿では,Any-Play学習のアルゴリズムをアルゴリズム間クロスプレイ設定に一般化するために,Any-Play学習の拡張を提案する。
論文 参考訳(メタデータ) (2022-01-28T21:43:58Z) - Hidden Agenda: a Social Deduction Game with Diverse Learned Equilibria [57.74495091445414]
社会的推論ゲームは、個人が他人に関する潜在的に信頼できない情報を合成する方法を学ぶための道を提供する。
本研究では,未知のチームアライメントのシナリオにおいて,学習エージェントを研究するための2D環境を提供する2チームソーシャル推論ゲームであるHidden Agendaを紹介する。
Hidden Agendaで訓練された強化学習エージェントは、自然言語でのコミュニケーションを必要とせずに、協力や投票など、さまざまな行動を学ぶことができることを示した。
論文 参考訳(メタデータ) (2022-01-05T20:54:10Z) - Incorporating Rivalry in Reinforcement Learning for a Competitive Game [65.2200847818153]
本研究は、競合する社会的影響に基づく新しい学習メカニズムの提供に焦点を当てる。
本研究は,競争競合の概念に基づいて,これらのエージェントの評価を人的視点から変えられるかを検討することを目的とする。
論文 参考訳(メタデータ) (2020-11-02T21:54:18Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z) - Generating and Adapting to Diverse Ad-Hoc Cooperation Agents in Hanabi [4.777698073163644]
ハナビでは、コーディネートされたプレイヤーのグループは、事前に確立された慣習を有効活用することができるが、アドホックな設定でプレーするには、前回のコーディネートなしでパートナーの戦略に適応する必要がある。
本稿では,この目的のために多様な個体群を生成するための,有望なアルゴリズムのクラスとして品質多様性アルゴリズムを提案する。
また,エージェントは訓練中に多様な集団の恩恵を受けることができ,エージェントが知覚する行動ニッチに適応するためのシンプルな「メタストラテジー」を実装することができると仮定した。
論文 参考訳(メタデータ) (2020-04-28T05:03:19Z) - On Emergent Communication in Competitive Multi-Agent Teams [116.95067289206919]
外部のエージェントチームによるパフォーマンスの競争が社会的影響として作用するかどうかを検討する。
以上の結果から,外部競争の影響により精度と一般化が向上し,コミュニケーション言語が急速に出現することが示唆された。
論文 参考訳(メタデータ) (2020-03-04T01:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。