論文の概要: Generating and Adapting to Diverse Ad-Hoc Cooperation Agents in Hanabi
- arxiv url: http://arxiv.org/abs/2004.13710v3
- Date: Mon, 29 Aug 2022 20:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 21:56:54.817420
- Title: Generating and Adapting to Diverse Ad-Hoc Cooperation Agents in Hanabi
- Title(参考訳): ハナビにおける各種アドホック連携剤の生成と適応
- Authors: Rodrigo Canaan, Xianbo Gao, Julian Togelius, Andy Nealen and Stefan
Menzel
- Abstract要約: ハナビでは、コーディネートされたプレイヤーのグループは、事前に確立された慣習を有効活用することができるが、アドホックな設定でプレーするには、前回のコーディネートなしでパートナーの戦略に適応する必要がある。
本稿では,この目的のために多様な個体群を生成するための,有望なアルゴリズムのクラスとして品質多様性アルゴリズムを提案する。
また,エージェントは訓練中に多様な集団の恩恵を受けることができ,エージェントが知覚する行動ニッチに適応するためのシンプルな「メタストラテジー」を実装することができると仮定した。
- 参考スコア(独自算出の注目度): 4.777698073163644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hanabi is a cooperative game that brings the problem of modeling other
players to the forefront. In this game, coordinated groups of players can
leverage pre-established conventions to great effect, but playing in an ad-hoc
setting requires agents to adapt to its partner's strategies with no previous
coordination. Evaluating an agent in this setting requires a diverse population
of potential partners, but so far, the behavioral diversity of agents has not
been considered in a systematic way. This paper proposes Quality Diversity
algorithms as a promising class of algorithms to generate diverse populations
for this purpose, and generates a population of diverse Hanabi agents using
MAP-Elites. We also postulate that agents can benefit from a diverse population
during training and implement a simple "meta-strategy" for adapting to an
agent's perceived behavioral niche. We show this meta-strategy can work better
than generalist strategies even outside the population it was trained with if
its partner's behavioral niche can be correctly inferred, but in practice a
partner's behavior depends and interferes with the meta-agent's own behavior,
suggesting an avenue for future research in characterizing another agent's
behavior during gameplay.
- Abstract(参考訳): ハナビ(はなび)は、他のプレイヤーを正面にモデリングする問題をもたらす協調ゲームである。
このゲームでは、プレイヤーの調整されたグループは、確立済みの慣習を利用して大きな効果を発揮できるが、アドホックな設定でプレイするには、エージェントが以前の調整なしでパートナーの戦略に適応する必要がある。
この設定でエージェントを評価するには、潜在的パートナーの多様な集団が必要であるが、これまでのところエージェントの行動の多様性は体系的に考慮されていない。
本稿では,この目的のために多様な集団を生成するアルゴリズムとして品質多様性アルゴリズムを提案し,MAP-Elitesを用いた多様なハナビエージェントの集団を生成する。
また,エージェントはトレーニング中に多様な集団から利益を得ることができ,エージェントの行動ニッチに適応するための単純な"メタストラテジー"を実装することができると仮定した。
このメタストラテジーは、そのパートナーの行動ニッチが正しく推測できるのであれば、訓練された集団の外でもジェネラリストの戦略よりもうまく機能するが、実際にはパートナーの行動はメタエージェントの行動に依存して干渉し、ゲームプレイ中に他のエージェントの行動を特徴付けるための将来の研究の道筋を示唆する。
関連論文リスト
- ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - On-the-fly Strategy Adaptation for ad-hoc Agent Coordination [21.029009561094725]
協調的な環境での訓練エージェントは、現実世界の人間(および他のエージェント)と効果的に対話できるAIエージェントの約束を提供する。
主な焦点は、セルフプレイパラダイムである。
本稿では,他のエージェントの戦略に対する後続の信念を用いて,エージェント戦略をその場で適応させることにより,この問題を解決することを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:18:11Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Pick Your Battles: Interaction Graphs as Population-Level Objectives for
Strategic Diversity [49.68758494467258]
我々は、集団内の個人がどのように相互作用するかを慎重に構造化することで、多様なエージェントの集団を構築する方法について研究する。
我々のアプローチは,エージェント間の情報の流れを制御するインタラクショングラフに基づいている。
マルチエージェント・トレーニングにおける多様性の重要性を証明し,様々な相互作用グラフを適用したゲームにおけるトレーニング・トラジェクトリ,多様性,パフォーマンスに与える影響を解析する。
論文 参考訳(メタデータ) (2021-10-08T11:29:52Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z) - "Other-Play" for Zero-Shot Coordination [21.607428852157273]
その他の遊び学習アルゴリズムは、より堅牢な戦略を探すことによって、セルフプレイを強化する。
本研究では,協力型カードゲーム「はなび」について検討し,OPエージェントが単独で訓練されたエージェントとペアを組むと,より高いスコアが得られることを示す。
論文 参考訳(メタデータ) (2020-03-06T00:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。