論文の概要: Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.08936v2
- Date: Thu, 21 Nov 2024 21:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 18:36:00.819285
- Title: Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning
- Title(参考訳): 共同デモを超えて: 効果的なマルチエージェント強化学習のための個人化エキスパートガイダンス
- Authors: Peihong Yu, Manav Mishra, Alec Koppel, Carl Busart, Priya Narayan, Dinesh Manocha, Amrit Bedi, Pratap Tokekar,
- Abstract要約: 異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
- 参考スコア(独自算出の注目度): 54.40927310957792
- License:
- Abstract: Multi-Agent Reinforcement Learning (MARL) algorithms face the challenge of efficient exploration due to the exponential increase in the size of the joint state-action space. While demonstration-guided learning has proven beneficial in single-agent settings, its direct applicability to MARL is hindered by the practical difficulty of obtaining joint expert demonstrations. In this work, we introduce a novel concept of personalized expert demonstrations, tailored for each individual agent or, more broadly, each individual type of agent within a heterogeneous team. These demonstrations solely pertain to single-agent behaviors and how each agent can achieve personal goals without encompassing any cooperative elements, thus naively imitating them will not achieve cooperation due to potential conflicts. To this end, we propose an approach that selectively utilizes personalized expert demonstrations as guidance and allows agents to learn to cooperate, namely personalized expert-guided MARL (PegMARL). This algorithm utilizes two discriminators: the first provides incentives based on the alignment of individual agent behavior with demonstrations, and the second regulates incentives based on whether the behaviors lead to the desired outcome. We evaluate PegMARL using personalized demonstrations in both discrete and continuous environments. The results demonstrate that PegMARL learns near-optimal policies even when provided with suboptimal demonstrations and outperforms state-of-the-art MARL algorithms in solving coordinated tasks. We also showcase PegMARL's capability of leveraging joint demonstrations in the StarCraft scenario and converging effectively even with demonstrations from non-co-trained policies.
- Abstract(参考訳): MARL(Multi-Agent Reinforcement Learning)アルゴリズムは、共同状態空間のサイズが指数関数的に増加するため、効率的な探索の課題に直面している。
実演誘導学習はシングルエージェント環境では有益であることが証明されているが、MARLへの直接的な適用性は、共同専門家による実演を得ることの困難さによって妨げられている。
そこで本研究では,各エージェントを個別に,あるいはより広義に,異種チーム内の各エージェントを個別にカスタマイズした,個人化された専門家によるデモンストレーションという新しい概念を紹介した。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まずに、どのように個人的目標を達成するかにのみ関係している。
そこで本研究では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力すること、すなわちパーソナライズされた専門家誘導型MARL(PegMARL)を学習できるようにするアプローチを提案する。
このアルゴリズムは2つの識別器を利用する: 第一は、各エージェントの行動とデモンストレーションのアライメントに基づいてインセンティブを提供し、第二は、その行動が望ましい結果につながるかどうかに基づいてインセンティブを規制する。
個別環境と連続環境の両方においてパーソナライズされたデモを用いてPegMARLを評価した。
これらの結果から,PegMARLは準最適実証を施しても準最適ポリシーを学習し,コーディネートされたタスクの解法において最先端のMARLアルゴリズムより優れていることが示された。
また、StarCraftシナリオにおける共同デモンストレーションを活用するPegMARLの能力を実演し、非協調的なポリシーによるデモでも効果的に収束することを示した。
関連論文リスト
- Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - A Generalized Apprenticeship Learning Framework for Modeling Heterogeneous Student Pedagogical Strategies [8.137664701386198]
本稿では,最適あるいは準最適の実証から効果的な教育政策を誘導する一般ALフレームワークである期待最大化(EM)-EDMを提案する。
提案したEM-EDMにより誘導されるポリシーと,DRLにより誘発される4つのALベースラインと2つのポリシーの有効性を比較した。
論文 参考訳(メタデータ) (2024-06-04T16:14:55Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。
本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。
ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2022-11-29T10:22:55Z) - Sample-Efficient Multi-Agent Reinforcement Learning with Demonstrations
for Flocking Control [6.398557794102739]
浮揚制御は無人航空機や自律水中車両のようなマルチエージェントシステムにおいて重要な問題である。
従来の手法とは対照的に、マルチエージェント強化学習(MARL)はより柔軟に群れ制御の問題を解く。
本稿では,MARL (PwD-MARL) の実証による事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-17T15:24:37Z) - Automatic Curricula via Expert Demonstrations [6.651864489482536]
本稿では、強化学習(RL)アプローチとして、エキスパートデモ(ACED)による自動カリキュラムを提案する。
ACEDは、デモンストレーションをセクションに分割し、トレーニングエピソードを異なるセクションからサンプリングされた状態に初期化することによって、専門家のデモ軌跡からキュリキュラを抽出する。
本稿では,ACEDと行動クローニングを組み合わせることで,最大1個の実演と20個の実演で積み重ねタスクを学習できることを示す。
論文 参考訳(メタデータ) (2021-06-16T22:21:09Z) - Celebrating Diversity in Shared Multi-Agent Reinforcement Learning [20.901606233349177]
深層多エージェント強化学習は、複雑な協調的な課題を解決することを約束している。
本稿では,共有型マルチエージェント強化学習の最適化と表現に多様性を導入することを目的とする。
提案手法は,Google Research Footballと超硬度StarCraft IIマイクロマネジメントタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-06-04T00:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。