論文の概要: Any-Play: An Intrinsic Augmentation for Zero-Shot Coordination
- arxiv url: http://arxiv.org/abs/2201.12436v1
- Date: Fri, 28 Jan 2022 21:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 15:37:34.579104
- Title: Any-Play: An Intrinsic Augmentation for Zero-Shot Coordination
- Title(参考訳): Any-Play: ゼロショットコーディネーションに固有の拡張
- Authors: Keane Lucas and Ross E. Allen
- Abstract要約: 我々は、協調型AIを評価するための代替基準を定式化し、この基準を「アルゴリズム間クロスプレイ(inter-algorithm cross-play)」と呼ぶ。
このパラダイムでは,Other-Play や Off-Belief Learning といった,最先端の協調型AIアルゴリズムが低性能であることを示す。
本稿では,Any-Play学習のアルゴリズムをアルゴリズム間クロスプレイ設定に一般化するために,Any-Play学習の拡張を提案する。
- 参考スコア(独自算出の注目度): 0.4153433779716327
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cooperative artificial intelligence with human or superhuman proficiency in
collaborative tasks stands at the frontier of machine learning research. Prior
work has tended to evaluate cooperative AI performance under the restrictive
paradigms of self-play (teams composed of agents trained together) and
cross-play (teams of agents trained independently but using the same
algorithm). Recent work has indicated that AI optimized for these narrow
settings may make for undesirable collaborators in the real-world. We formalize
an alternative criteria for evaluating cooperative AI, referred to as
inter-algorithm cross-play, where agents are evaluated on teaming performance
with all other agents within an experiment pool with no assumption of
algorithmic similarities between agents. We show that existing state-of-the-art
cooperative AI algorithms, such as Other-Play and Off-Belief Learning,
under-perform in this paradigm. We propose the Any-Play learning augmentation
-- a multi-agent extension of diversity-based intrinsic rewards for zero-shot
coordination (ZSC) -- for generalizing self-play-based algorithms to the
inter-algorithm cross-play setting. We apply the Any-Play learning augmentation
to the Simplified Action Decoder (SAD) and demonstrate state-of-the-art
performance in the collaborative card game Hanabi.
- Abstract(参考訳): 協調作業における人間または超人的能力を持つ協調人工知能は、機械学習研究のフロンティアに立っている。
先行研究は、セルフプレイ(一緒に訓練されたエージェントで構成されるチーム)とクロスプレイ(同じアルゴリズムを使用して独立して訓練されたエージェントのチーム)の制限パラダイムの下で、協調aiのパフォーマンスを評価する傾向があった。
最近の研究によると、これらの狭い設定に最適化されたaiは、現実世界で望ましくない協力者になる可能性がある。
我々は、エージェント間のアルゴリズム的類似性を仮定することなく、実験プール内の他のすべてのエージェントとの協調性能の評価を行う、アルゴリズム間クロスプレイと呼ばれる協調AIを評価するための代替基準を定式化する。
このパラダイムでは、Other-Play や Off-Belief Learning といった既存の最先端の協調型AIアルゴリズムが低パフォーマンスであることを示す。
本稿では,ゼロショットコーディネーション(ZSC)のための多様性に基づく固有報酬のマルチエージェント拡張であるAny-Play学習拡張を提案する。
本研究では,Any-Play学習をSAD(Simplified Action Decoder)に適用し,コラボレーションカードゲーム「はなび」の最先端性能を示す。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Aligning Individual and Collective Objectives in Multi-Agent Cooperation [18.082268221987956]
混合モチベーション協調は、マルチエージェント学習における最も顕著な課題の1つである。
textbftextitAltruistic textbftextitGradient textbftextitAdjustment (textbftextitAgA) という新しい最適化手法を導入する。
我々は,ベンチマーク環境によるAgAアルゴリズムの有効性を評価し,小規模エージェントとの混合モチベーションを検証した。
論文 参考訳(メタデータ) (2024-02-19T08:18:53Z) - MindAgent: Emergent Gaming Interaction [103.73707345211892]
大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。
我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
論文 参考訳(メタデータ) (2023-09-18T17:52:22Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination [36.33334853998621]
協調的オープンエンド・ラーニング(COLE)フレームワークを導入し,学習における協調的非互換性を解決する。
COLEは、グラフ理論の観点を用いて、2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価し、特定する。
我々は,COLEが理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
論文 参考訳(メタデータ) (2023-06-05T16:51:38Z) - A Reinforcement Learning-assisted Genetic Programming Algorithm for Team
Formation Problem Considering Person-Job Matching [70.28786574064694]
解の質を高めるために強化学習支援遺伝的プログラミングアルゴリズム(RL-GP)を提案する。
効率的な学習を通じて得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用することができる。
論文 参考訳(メタデータ) (2023-04-08T14:32:12Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Partner-Aware Algorithms in Decentralized Cooperative Bandit Teams [14.215359943041369]
我々は、より一般的なマルチエージェントコラボレーションの抽象化として、複合報酬を用いた分散マルチエージェント帯域(MAB)問題を提案し、解析する。
本稿では,よく知られた単一エージェント・アッパー信頼境界アルゴリズムを拡張した逐次意思決定のためのパートナー・アウェア戦略を提案する。
提案したパートナー意識戦略は、他の既知の手法よりも優れており、人間による研究は、パートナー意識戦略を実装するAIエージェントと協力することを好むことを示唆している。
論文 参考訳(メタデータ) (2021-10-02T08:17:30Z) - "Other-Play" for Zero-Shot Coordination [21.607428852157273]
その他の遊び学習アルゴリズムは、より堅牢な戦略を探すことによって、セルフプレイを強化する。
本研究では,協力型カードゲーム「はなび」について検討し,OPエージェントが単独で訓練されたエージェントとペアを組むと,より高いスコアが得られることを示す。
論文 参考訳(メタデータ) (2020-03-06T00:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。