論文の概要: On-the-fly Strategy Adaptation for ad-hoc Agent Coordination
- arxiv url: http://arxiv.org/abs/2203.08015v1
- Date: Tue, 8 Mar 2022 02:18:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-20 22:50:13.851950
- Title: On-the-fly Strategy Adaptation for ad-hoc Agent Coordination
- Title(参考訳): アドホックエージェント協調のためのオンザフライ戦略適応
- Authors: Jaleh Zand, Jack Parker-Holder, Stephen J. Roberts
- Abstract要約: 協調的な環境での訓練エージェントは、現実世界の人間(および他のエージェント)と効果的に対話できるAIエージェントの約束を提供する。
主な焦点は、セルフプレイパラダイムである。
本稿では,他のエージェントの戦略に対する後続の信念を用いて,エージェント戦略をその場で適応させることにより,この問題を解決することを提案する。
- 参考スコア(独自算出の注目度): 21.029009561094725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training agents in cooperative settings offers the promise of AI agents able
to interact effectively with humans (and other agents) in the real world.
Multi-agent reinforcement learning (MARL) has the potential to achieve this
goal, demonstrating success in a series of challenging problems. However,
whilst these advances are significant, the vast majority of focus has been on
the self-play paradigm. This often results in a coordination problem, caused by
agents learning to make use of arbitrary conventions when playing with
themselves. This means that even the strongest self-play agents may have very
low cross-play with other agents, including other initializations of the same
algorithm. In this paper we propose to solve this problem by adapting agent
strategies on the fly, using a posterior belief over the other agents'
strategy. Concretely, we consider the problem of selecting a strategy from a
finite set of previously trained agents, to play with an unknown partner. We
propose an extension of the classic statistical technique, Gibbs sampling, to
update beliefs about other agents and obtain close to optimal ad-hoc
performance. Despite its simplicity, our method is able to achieve strong
cross-play with unseen partners in the challenging card game of Hanabi,
achieving successful ad-hoc coordination without knowledge of the partner's
strategy a priori.
- Abstract(参考訳): 協調的な環境での訓練エージェントは、現実世界の人間(および他のエージェント)と効果的に対話できるAIエージェントの約束を提供する。
マルチエージェント強化学習(MARL)はこの目標を達成する可能性があり、一連の課題において成功を示す。
しかし、これらの進歩は重要なものであるが、ほとんどの焦点は自己再生パラダイムに向けられている。
これはしばしば協調問題を引き起こし、エージェントが自分自身で遊んでいるときに任意の慣習を使うように学習することで引き起こされる。
これは、最強のセルフプレイエージェントであっても、同じアルゴリズムの他の初期化を含む他のエージェントとのクロスプレイが非常に低いことを意味する。
本稿では,他のエージェントの戦略に対する後続の信念を用いて,エージェント戦略をその場で適応させることにより,この問題を解決することを提案する。
具体的には、予め訓練されたエージェントの有限セットから戦略を選択することで、未知のパートナーと対戦する問題を考える。
本稿では,従来の統計手法であるギブスサンプリングを拡張し,他のエージェントに対する信念を更新し,最適なアドホック性能を得る。
その単純さにもかかわらず,本手法は,ハナビの挑戦的なカードゲームにおいて,未確認のパートナーと強いクロスプレイを達成でき,パートナーの戦略を事前に知ることなく,アドホックなコーディネーションを成功させることができる。
関連論文リスト
- ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Behavioral Differences is the Key of Ad-hoc Team Cooperation in
Multiplayer Games Hanabi [3.7202899712601964]
アドホックなチーム協力は、学習プロセスで見られていない他のプレイヤーと協力する問題である。
アドホックなチームコラボレーションの結果を,失敗,成功,シナジーに分析する。
本研究は,マルチプレイヤーゲームにおいて,アドホックなチームコラボレーションを成功させるために重要な要素の理解を深めるものである。
論文 参考訳(メタデータ) (2023-03-12T23:25:55Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Generating and Adapting to Diverse Ad-Hoc Cooperation Agents in Hanabi [4.777698073163644]
ハナビでは、コーディネートされたプレイヤーのグループは、事前に確立された慣習を有効活用することができるが、アドホックな設定でプレーするには、前回のコーディネートなしでパートナーの戦略に適応する必要がある。
本稿では,この目的のために多様な個体群を生成するための,有望なアルゴリズムのクラスとして品質多様性アルゴリズムを提案する。
また,エージェントは訓練中に多様な集団の恩恵を受けることができ,エージェントが知覚する行動ニッチに適応するためのシンプルな「メタストラテジー」を実装することができると仮定した。
論文 参考訳(メタデータ) (2020-04-28T05:03:19Z) - "Other-Play" for Zero-Shot Coordination [21.607428852157273]
その他の遊び学習アルゴリズムは、より堅牢な戦略を探すことによって、セルフプレイを強化する。
本研究では,協力型カードゲーム「はなび」について検討し,OPエージェントが単独で訓練されたエージェントとペアを組むと,より高いスコアが得られることを示す。
論文 参考訳(メタデータ) (2020-03-06T00:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。