論文の概要: Augmenting the action space with conventions to improve multi-agent cooperation in Hanabi
- arxiv url: http://arxiv.org/abs/2412.06333v1
- Date: Mon, 09 Dec 2024 09:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:56:28.438708
- Title: Augmenting the action space with conventions to improve multi-agent cooperation in Hanabi
- Title(参考訳): ハナビにおけるマルチエージェント連携改善のための慣例による行動空間の強化
- Authors: F. Bredell, H. A. Engelbrecht, J. C. Schoeman,
- Abstract要約: カードゲーム「はなび」は、マルチエージェント強化学習アルゴリズムのテストと開発のための強力な媒体であると考えられている。
従来,ハナビにおけるMARLアルゴリズムの能力について検討されてきた。
本稿では,特別な協調行動として機能するコンベンションを用いて,行動空間を拡大するための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The card game Hanabi is considered a strong medium for the testing and development of multi-agent reinforcement learning (MARL) algorithms, due to its cooperative nature, hidden information, limited communication and remarkable complexity. Previous research efforts have explored the capabilities of MARL algorithms within Hanabi, focusing largely on advanced architecture design and algorithmic manipulations to achieve state-of-the-art performance for a various number of cooperators. However, this often leads to complex solution strategies with high computational cost and requiring large amounts of training data. For humans to solve the Hanabi game effectively, they require the use of conventions, which often allows for a means to implicitly convey ideas or knowledge based on a predefined, and mutually agreed upon, set of ``rules''. Multi-agent problems containing partial observability, especially when limited communication is present, can benefit greatly from the use of implicit knowledge sharing. In this paper, we propose a novel approach to augmenting the action space using conventions, which act as special cooperative actions that span over multiple time steps and multiple agents, requiring agents to actively opt in for it to reach fruition. These conventions are based on existing human conventions, and result in a significant improvement on the performance of existing techniques for self-play and cross-play across a various number of cooperators within Hanabi.
- Abstract(参考訳): カードゲーム「はなび」は多エージェント強化学習(MARL)アルゴリズムのテストと開発のための強力な媒体であると考えられている。
従来、ハナビにおけるMARLアルゴリズムの能力について研究され、様々な共同作業者に対して最先端の性能を達成するための高度なアーキテクチャ設計とアルゴリズム操作に重点を置いてきた。
しかし、これはしばしば計算コストが高く、大量のトレーニングデータを必要とする複雑なソリューション戦略につながる。
人間がハナビのゲームを効果的に解くためには、しばしば、事前に定義された、相互に合意された「ルール」の集合に基づいて、暗黙的に考えや知識を伝える手段として、慣例を用いる必要がある。
部分的可観測性を含むマルチエージェント問題、特に限られたコミュニケーションが存在する場合、暗黙的な知識共有を用いることで大きな恩恵を受けることができる。
本稿では,複数の時間ステップと複数のエージェントにまたがる特別な協調行動として機能するコンベンションを用いた行動空間の拡張手法を提案する。
これらの慣例は、既存の人間の慣例に基づいており、その結果、ハナビ内の様々な共同作業者間での自己演奏とクロスプレイのための既存の技術のパフォーマンスが大幅に向上する。
関連論文リスト
- Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Towards Few-shot Coordination: Revisiting Ad-hoc Teamplay Challenge In
the Game of Hanabi [15.917861586043813]
現状のZSCアルゴリズムは、異なる学習手法で訓練されたエージェントとペアリングした場合、性能が劣っていることを示す。
我々は,MARL手法の適応性を評価するために,ハナビと呼ばれる人気のある協調型マルチエージェントゲームに基づくフレームワークを構築した。
論文 参考訳(メタデータ) (2023-08-20T14:44:50Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Multi-agent Reinforcement Learning Improvement in a Dynamic Environment
Using Knowledge Transfer [0.0]
協調型マルチエージェントシステムは、様々な領域で広く使われている。
これらのシステムは、大規模で未知の、動的環境を扱うための良い選択肢でもある。
しかし、これらの環境での学習は様々なアプリケーションにおいて非常に重要な課題となっている。
論文 参考訳(メタデータ) (2021-07-20T23:42:39Z) - Celebrating Diversity in Shared Multi-Agent Reinforcement Learning [20.901606233349177]
深層多エージェント強化学習は、複雑な協調的な課題を解決することを約束している。
本稿では,共有型マルチエージェント強化学習の最適化と表現に多様性を導入することを目的とする。
提案手法は,Google Research Footballと超硬度StarCraft IIマイクロマネジメントタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-06-04T00:55:03Z) - Provably Efficient Cooperative Multi-Agent Reinforcement Learning with
Function Approximation [15.411902255359074]
定常的な通信予算を一定に保っても,ほぼ最適に学習できることを示す。
私たちの仕事は、マルチエージェントコンテキストとマルチアームバンディット文学からMDP、強化学習まで、いくつかのアイデアを一般化します。
論文 参考訳(メタデータ) (2021-03-08T18:51:00Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。