論文の概要: Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.08936v1
- Date: Wed, 13 Mar 2024 20:11:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 22:37:06.294273
- Title: Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning
- Title(参考訳): 共同デモを超えて: 効果的なマルチエージェント強化学習のための個人化エキスパートガイダンス
- Authors: Peihong Yu, Manav Mishra, Alec Koppel, Carl Busart, Priya Narayan, Dinesh Manocha, Amrit Bedi, Pratap Tokekar,
- Abstract要約: 異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
- 参考スコア(独自算出の注目度): 54.40927310957792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Agent Reinforcement Learning (MARL) algorithms face the challenge of efficient exploration due to the exponential increase in the size of the joint state-action space. While demonstration-guided learning has proven beneficial in single-agent settings, its direct applicability to MARL is hindered by the practical difficulty of obtaining joint expert demonstrations. In this work, we introduce a novel concept of personalized expert demonstrations, tailored for each individual agent or, more broadly, each individual type of agent within a heterogeneous team. These demonstrations solely pertain to single-agent behaviors and how each agent can achieve personal goals without encompassing any cooperative elements, thus naively imitating them will not achieve cooperation due to potential conflicts. To this end, we propose an approach that selectively utilizes personalized expert demonstrations as guidance and allows agents to learn to cooperate, namely personalized expert-guided MARL (PegMARL). This algorithm utilizes two discriminators: the first provides incentives based on the alignment of policy behavior with demonstrations, and the second regulates incentives based on whether the behavior leads to the desired objective. We evaluate PegMARL using personalized demonstrations in both discrete and continuous environments. The results demonstrate that PegMARL learns near-optimal policies even when provided with suboptimal demonstrations, and outperforms state-of-the-art MARL algorithms in solving coordinated tasks. We also showcase PegMARL's capability to leverage joint demonstrations in the StarCraft scenario and converge effectively even with demonstrations from non-co-trained policies.
- Abstract(参考訳): MARL(Multi-Agent Reinforcement Learning)アルゴリズムは、共同状態空間のサイズが指数関数的に増加するため、効率的な探索の課題に直面している。
実演誘導学習はシングルエージェント環境では有益であることが証明されているが、MARLへの直接的な適用性は、共同専門家による実演を得ることの困難さによって妨げられている。
そこで本研究では,各エージェントを個別に,あるいはより広義に,異種チーム内の各エージェントを個別にカスタマイズした,個人化された専門家によるデモンストレーションという新しい概念を紹介した。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まずに、どのように個人的目標を達成するかにのみ関係している。
そこで本研究では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力すること、すなわちパーソナライズされた専門家誘導型MARL(PegMARL)を学習できるようにするアプローチを提案する。
このアルゴリズムは2つの差別要因を利用する: 第一は、政策行動と実証との整合に基づくインセンティブを提供し、第二は、その行動が望ましい目的に導くかどうかに基づいてインセンティブを規制する。
個別環境と連続環境の両方においてパーソナライズされたデモを用いてPegMARLを評価した。
その結果,PegMARLは準最適でも準最適ポリシを学習し,コーディネートされたタスクの解法において最先端のMARLアルゴリズムより優れていることがわかった。
また、StarCraftシナリオにおける共同デモンストレーションを活用するPegMARLの機能を示し、非協調的なポリシーのデモでも効果的に収束する。
関連論文リスト
- A Generalized Apprenticeship Learning Framework for Modeling Heterogeneous Student Pedagogical Strategies [8.137664701386198]
本稿では,最適あるいは準最適の実証から効果的な教育政策を誘導する一般ALフレームワークである期待最大化(EM)-EDMを提案する。
提案したEM-EDMにより誘導されるポリシーと,DRLにより誘発される4つのALベースラインと2つのポリシーの有効性を比較した。
論文 参考訳(メタデータ) (2024-06-04T16:14:55Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Eliciting Compatible Demonstrations for Multi-Human Imitation Learning [16.11830547863391]
人間による実演からの模倣学習は、ロボット操作の学習ポリシーに対する強力なアプローチである。
自然の人間の行動は、タスクを示すのに最適な方法がいくつかあるため、多くの異種性を持っている。
このミスマッチは、インタラクティブな模倣学習の課題であり、ユーザのシーケンスは、新しい、おそらく矛盾するデモを反復的に収集することによって、ポリシーを改善する。
我々は、ポストホックフィルタリングにより互換性のないデモを識別し、新しいユーザから互換性のないデモを積極的に引き出すために互換性対策を適用することができることを示す。
論文 参考訳(メタデータ) (2022-10-14T19:37:55Z) - Sample-Efficient Multi-Agent Reinforcement Learning with Demonstrations
for Flocking Control [6.398557794102739]
浮揚制御は無人航空機や自律水中車両のようなマルチエージェントシステムにおいて重要な問題である。
従来の手法とは対照的に、マルチエージェント強化学習(MARL)はより柔軟に群れ制御の問題を解く。
本稿では,MARL (PwD-MARL) の実証による事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-17T15:24:37Z) - Automatic Curricula via Expert Demonstrations [6.651864489482536]
本稿では、強化学習(RL)アプローチとして、エキスパートデモ(ACED)による自動カリキュラムを提案する。
ACEDは、デモンストレーションをセクションに分割し、トレーニングエピソードを異なるセクションからサンプリングされた状態に初期化することによって、専門家のデモ軌跡からキュリキュラを抽出する。
本稿では,ACEDと行動クローニングを組み合わせることで,最大1個の実演と20個の実演で積み重ねタスクを学習できることを示す。
論文 参考訳(メタデータ) (2021-06-16T22:21:09Z) - Celebrating Diversity in Shared Multi-Agent Reinforcement Learning [20.901606233349177]
深層多エージェント強化学習は、複雑な協調的な課題を解決することを約束している。
本稿では,共有型マルチエージェント強化学習の最適化と表現に多様性を導入することを目的とする。
提案手法は,Google Research Footballと超硬度StarCraft IIマイクロマネジメントタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-06-04T00:55:03Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。