論文の概要: Towards Few-shot Coordination: Revisiting Ad-hoc Teamplay Challenge In
the Game of Hanabi
- arxiv url: http://arxiv.org/abs/2308.10284v1
- Date: Sun, 20 Aug 2023 14:44:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 16:29:52.733109
- Title: Towards Few-shot Coordination: Revisiting Ad-hoc Teamplay Challenge In
the Game of Hanabi
- Title(参考訳): フォーショットコーディネーションに向けて:ハナビゲームにおけるアドホックチームプレイチャレンジの再考
- Authors: Hadi Nekoei, Xutong Zhao, Janarthanan Rajendran, Miao Liu, Sarath
Chandar
- Abstract要約: 現状のZSCアルゴリズムは、異なる学習手法で訓練されたエージェントとペアリングした場合、性能が劣っていることを示す。
我々は,MARL手法の適応性を評価するために,ハナビと呼ばれる人気のある協調型マルチエージェントゲームに基づくフレームワークを構築した。
- 参考スコア(独自算出の注目度): 15.917861586043813
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Cooperative Multi-agent Reinforcement Learning (MARL) algorithms with
Zero-Shot Coordination (ZSC) have gained significant attention in recent years.
ZSC refers to the ability of agents to coordinate zero-shot (without additional
interaction experience) with independently trained agents. While ZSC is crucial
for cooperative MARL agents, it might not be possible for complex tasks and
changing environments. Agents also need to adapt and improve their performance
with minimal interaction with other agents. In this work, we show empirically
that state-of-the-art ZSC algorithms have poor performance when paired with
agents trained with different learning methods, and they require millions of
interaction samples to adapt to these new partners. To investigate this issue,
we formally defined a framework based on a popular cooperative multi-agent game
called Hanabi to evaluate the adaptability of MARL methods. In particular, we
created a diverse set of pre-trained agents and defined a new metric called
adaptation regret that measures the agent's ability to efficiently adapt and
improve its coordination performance when paired with some held-out pool of
partners on top of its ZSC performance. After evaluating several SOTA
algorithms using our framework, our experiments reveal that naive Independent
Q-Learning (IQL) agents in most cases adapt as quickly as the SOTA ZSC
algorithm Off-Belief Learning (OBL). This finding raises an interesting
research question: How to design MARL algorithms with high ZSC performance and
capability of fast adaptation to unseen partners. As a first step, we studied
the role of different hyper-parameters and design choices on the adaptability
of current MARL algorithms. Our experiments show that two categories of
hyper-parameters controlling the training data diversity and optimization
process have a significant impact on the adaptability of Hanabi agents.
- Abstract(参考訳): 近年,ZSC(Zero-Shot Coordination)を用いたMARL(Multi-Adnt Reinforcement Learning)アルゴリズムが注目されている。
ZSCは、独立に訓練されたエージェントとゼロショット(追加の相互作用経験なしで)を調整できるエージェントの能力を指す。
ZSCは協調的なMARLエージェントには不可欠であるが、複雑なタスクや環境変更には不可能かもしれない。
エージェントは他のエージェントとの最小限のインタラクションでパフォーマンスを適応し改善する必要がある。
本研究では,現在最先端のZSCアルゴリズムが,異なる学習手法で訓練されたエージェントとペアを組むと性能が低下し,新たなパートナーに適応するためには数百万のインタラクションサンプルが必要であることを実証的に示す。
そこで我々は,MARL手法の適応性を評価するために,ハナビと呼ばれる人気協調型マルチエージェントゲームに基づくフレームワークを正式に定義した。
特に,事前学習したエージェントの多種多様なセットを作成し,ZSCのパフォーマンス上のパートナーの保持プールと組み合わせることで,エージェントが効率よく適応し,調整性能を向上させる能力を測定するための適応後悔と呼ばれる新しい指標を定義した。
我々のフレームワークを用いていくつかのsomaアルゴリズムを評価した後、実験により、大抵の場合、naive independent q-learning (iql)エージェントはsoma zscアルゴリズムのオフ・ベリーフ学習 (obl) と同じくらい迅速に適応することが判明した。
この発見は興味深い研究課題を提起する: ZSC 性能の高い MARL アルゴリズムを設計し、未知のパートナーに迅速に適応する方法。
最初のステップとして,現在のMARLアルゴリズムの適応性に対する,異なるハイパーパラメータの役割と設計選択について検討した。
実験の結果,訓練データの多様性と最適化プロセスを制御するハイパーパラメータの2つのカテゴリが,ハナビエージェントの適応性に大きな影響を与えることがわかった。
関連論文リスト
- Situation-Dependent Causal Influence-Based Cooperative Multi-agent
Reinforcement Learning [18.054709749075194]
我々は、状況依存因果関係に基づく協調マルチエージェント強化学習(SCIC)という新しいMARLアルゴリズムを提案する。
本研究の目的は,特定の状況におけるエージェント間因果関係の影響を,因果介入と条件付き相互情報を用いて検出することである。
結果として得られたアップデートは、協調した探索と本質的な報酬分布をリンクし、全体的なコラボレーションとパフォーマンスを高めた。
論文 参考訳(メタデータ) (2023-12-15T05:09:32Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Towards Skilled Population Curriculum for Multi-Agent Reinforcement
Learning [42.540853953923495]
我々は,カリキュラム学習をマルチエージェント協調に適応させる新しいカリキュラム学習フレームワーク,SPC(Skilled Population Curriculum)を導入する。
具体的には,集団不変のコミュニケーションと階層的スキルセットを学生に提供し,異なるタスクからさまざまなエージェントで協調と行動スキルを学習できるようにする。
また、このマルチエージェント自動カリキュラム教育問題の本質的非定常性を解析し、それに対応する後悔境界を提供する。
論文 参考訳(メタデータ) (2023-02-07T12:30:52Z) - Heterogeneous Multi-agent Zero-Shot Coordination by Coevolution [41.23036865145942]
異種ゼロショットコーディネート(ZSC)問題を初めて検討した。
本稿では,3つのサブプロセス(ペアリング,更新,選択)を通じてエージェントとパートナーの2つの集団を共進化させる,共進化に基づく一般的な手法を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:16:28Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。