論文の概要: Minimum Coverage Sets for Training Robust Ad Hoc Teamwork Agents
- arxiv url: http://arxiv.org/abs/2308.09595v2
- Date: Wed, 3 Jan 2024 03:05:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:44:15.337389
- Title: Minimum Coverage Sets for Training Robust Ad Hoc Teamwork Agents
- Title(参考訳): ロバストなアドホックチームワークエージェントのトレーニングのための最小被覆セット
- Authors: Arrasy Rahman, Jiaxun Cui, Peter Stone
- Abstract要約: 既存のAd Hoc Teamwork(AHT)メソッドは、さまざまなチームメイトポリシーを持つエージェントをトレーニングすることで、この問題に対処する。
我々は、AHTトレーニングに使用されるチームメイトポリシーのセットを生成するL-BRDivアルゴリズムを導入し、エージェントがMCSのポリシーをエミュレートすることを奨励する。
実験により,L-BRDivは2人共役の幅広い問題において,最先端の手法よりも堅牢なAHTエージェントを生成することを示した。
- 参考スコア(独自算出の注目度): 39.19326531319873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robustly cooperating with unseen agents and human partners presents
significant challenges due to the diverse cooperative conventions these
partners may adopt. Existing Ad Hoc Teamwork (AHT) methods address this
challenge by training an agent with a population of diverse teammate policies
obtained through maximizing specific diversity metrics. However, prior
heuristic-based diversity metrics do not always maximize the agent's robustness
in all cooperative problems. In this work, we first propose that maximizing an
AHT agent's robustness requires it to emulate policies in the minimum coverage
set (MCS), the set of best-response policies to any partner policies in the
environment. We then introduce the L-BRDiv algorithm that generates a set of
teammate policies that, when used for AHT training, encourage agents to emulate
policies from the MCS. L-BRDiv works by solving a constrained optimization
problem to jointly train teammate policies for AHT training and approximating
AHT agent policies that are members of the MCS. We empirically demonstrate that
L-BRDiv produces more robust AHT agents than state-of-the-art methods in a
broader range of two-player cooperative problems without the need for extensive
hyperparameter tuning for its objectives. Our study shows that L-BRDiv
outperforms the baseline methods by prioritizing discovering distinct members
of the MCS instead of repeatedly finding redundant policies.
- Abstract(参考訳): 目に見えないエージェントや人間のパートナーとのロバストな協力は、これらのパートナーが採用する様々な協力協定によって大きな課題を提起する。
既存のAd Hoc Teamwork(AHT)メソッドは、特定の多様性メトリクスを最大化することで得られる多様なチームメイトポリシーの集団を持つエージェントをトレーニングすることで、この問題に対処する。
しかしながら、先行ヒューリスティックに基づく多様性指標は、すべての協調問題においてエージェントの堅牢性を常に最大化するとは限らない。
本研究では,AHTエージェントのロバスト性を最大化するためには,環境内の任意のパートナーポリシーに対する最良応答ポリシーである最小カバレッジセット(MCS)のポリシーをエミュレートする必要があることを最初に提案する。
次に、AHTトレーニングに使用されるチームメイトポリシーのセットを生成するL-BRDivアルゴリズムを導入し、エージェントがMCSのポリシーをエミュレートすることを奨励する。
L-BRDiv は AHT トレーニングと MCS のメンバーである AHT エージェントポリシーの近似のためのチームメイトポリシーを共同で訓練するために制約付き最適化問題を解く。
実験により,L-BRDivは高パラメータチューニングを必要とせず,より広い範囲の2プレイヤー協調問題において,最先端の手法よりも堅牢なAHTエージェントを生成することを示した。
L-BRDivは, 冗長なポリシーを繰り返すのではなく, MCSの異なるメンバーの発見を優先することで, 基準法よりも優れていることを示す。
関連論文リスト
- Policy Diversity for Cooperative Agents [8.689289576285095]
マルチエージェント強化学習は、タスクを完了するための最適なチーム協調政策を見つけることを目的としている。
協調には複数の異なる方法があり、通常はドメインの専門家が非常に必要とします。
残念なことに、マルチエージェントドメイン用に特別に設計された効果的なポリシーの多様性アプローチが欠如している。
論文 参考訳(メタデータ) (2023-08-28T05:23:16Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Developing cooperative policies for multi-stage reinforcement learning
tasks [0.0]
多くの階層的強化学習アルゴリズムは、より高い推論レベルでタスクを解決するために、一連の独立したスキルを基礎として利用している。
本稿では,連続エージェントが長期水平多段階タスクを協調的に解決できる協調的協調政策(CCP)手法を提案する。
論文 参考訳(メタデータ) (2022-05-11T01:31:04Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Developing cooperative policies for multi-stage tasks [0.0]
本稿では,協調型ソフトアクター批判(CSAC)手法を提案する。
CSACは非協調的な政策よりも少なくとも20%高い成功率を達成し、単一エージェントの少なくとも4倍の速さで解に収束した。
論文 参考訳(メタデータ) (2020-07-01T03:32:14Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。