Fugu-MT 論文翻訳(概要): Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning

論文の概要: Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2403.08936v1
Date: Wed, 13 Mar 2024 20:11:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 22:37:06.294273
Title: Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning
Title（参考訳）: 共同デモを超えて: 効果的なマルチエージェント強化学習のための個人化エキスパートガイダンス
Authors: Peihong Yu, Manav Mishra, Alec Koppel, Carl Busart, Priya Narayan, Dinesh Manocha, Amrit Bedi, Pratap Tokekar,
Abstract要約: 異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
参考スコア（独自算出の注目度）: 54.40927310957792
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-Agent Reinforcement Learning (MARL) algorithms face the challenge of efficient exploration due to the exponential increase in the size of the joint state-action space. While demonstration-guided learning has proven beneficial in single-agent settings, its direct applicability to MARL is hindered by the practical difficulty of obtaining joint expert demonstrations. In this work, we introduce a novel concept of personalized expert demonstrations, tailored for each individual agent or, more broadly, each individual type of agent within a heterogeneous team. These demonstrations solely pertain to single-agent behaviors and how each agent can achieve personal goals without encompassing any cooperative elements, thus naively imitating them will not achieve cooperation due to potential conflicts. To this end, we propose an approach that selectively utilizes personalized expert demonstrations as guidance and allows agents to learn to cooperate, namely personalized expert-guided MARL (PegMARL). This algorithm utilizes two discriminators: the first provides incentives based on the alignment of policy behavior with demonstrations, and the second regulates incentives based on whether the behavior leads to the desired objective. We evaluate PegMARL using personalized demonstrations in both discrete and continuous environments. The results demonstrate that PegMARL learns near-optimal policies even when provided with suboptimal demonstrations, and outperforms state-of-the-art MARL algorithms in solving coordinated tasks. We also showcase PegMARL's capability to leverage joint demonstrations in the StarCraft scenario and converge effectively even with demonstrations from non-co-trained policies.
Abstract（参考訳）: MARL(Multi-Agent Reinforcement Learning)アルゴリズムは、共同状態空間のサイズが指数関数的に増加するため、効率的な探索の課題に直面している。実演誘導学習はシングルエージェント環境では有益であることが証明されているが、MARLへの直接的な適用性は、共同専門家による実演を得ることの困難さによって妨げられている。そこで本研究では,各エージェントを個別に,あるいはより広義に,異種チーム内の各エージェントを個別にカスタマイズした,個人化された専門家によるデモンストレーションという新しい概念を紹介した。これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まずに、どのように個人的目標を達成するかにのみ関係している。そこで本研究では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力すること、すなわちパーソナライズされた専門家誘導型MARL(PegMARL)を学習できるようにするアプローチを提案する。このアルゴリズムは2つの差別要因を利用する: 第一は、政策行動と実証との整合に基づくインセンティブを提供し、第二は、その行動が望ましい目的に導くかどうかに基づいてインセンティブを規制する。個別環境と連続環境の両方においてパーソナライズされたデモを用いてPegMARLを評価した。その結果,PegMARLは準最適でも準最適ポリシを学習し,コーディネートされたタスクの解法において最先端のMARLアルゴリズムより優れていることがわかった。また、StarCraftシナリオにおける共同デモンストレーションを活用するPegMARLの機能を示し、非協調的なポリシーのデモでも効果的に収束する。

関連論文リスト

DICE: Dynamic In-Context Example Selection in LLM Agents via Efficient Knowledge Transfer [50.64531021352504]
インコンテキスト学習(ICL)によって強化された大規模言語モデルベースエージェントは、複雑な推論やツール使用タスクにおいて強力な能力を示している。既存のアプローチは典型的には、エージェントやマルチステップの設定を含むサンプルの選択に依存している。推論の各ステップにおいて最も関連性の高い実演を選択できるエージェントタスクのための理論的に基礎付けられた ICL フレームワーク DICE を提案する。
論文参考訳（メタデータ） (2025-07-31T13:42:14Z)
Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning via Incorporating Generalized Human Expertise [6.441011477647557]
マルチエージェント強化学習(MARL)の効率的な探索は、チーム報酬のみを受け取る場合の課題である。この問題を緩和するための強力な方法は、エージェントを効率的な探索へと導くために、密集した個人報酬を作成することである。本稿では,MARLアルゴリズムに人間の知識をエンドツーエンドで組み込む新しいフレームワーク LIGHT を提案する。
論文参考訳（メタデータ） (2025-07-25T00:59:10Z)
SAND: Boosting LLM Agents with Self-Taught Action Deliberation [53.732649189709285]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。 SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文参考訳（メタデータ） (2025-07-10T05:38:15Z)
O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文参考訳（メタデータ） (2025-01-31T08:08:20Z)
Imitation Learning from Suboptimal Demonstrations via Meta-Learning An Action Ranker [9.6508237676589]
模倣学習における大きなボトルネックは、多数の専門家によるデモンストレーションの要求である。メタラーニング・アクション・ローダ(ILMAR)による模倣学習という新しい手法を提案する。 ILMARは、限定された専門家によるデモンストレーションと補足的なデモに重み付けされた行動クローニング(BC)を実装している。
論文参考訳（メタデータ） (2024-12-28T16:06:44Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
A Generalized Apprenticeship Learning Framework for Modeling Heterogeneous Student Pedagogical Strategies [8.137664701386198]
本稿では,最適あるいは準最適の実証から効果的な教育政策を誘導する一般ALフレームワークである期待最大化(EM)-EDMを提案する。提案したEM-EDMにより誘導されるポリシーと,DRLにより誘発される4つのALベースラインと2つのポリシーの有効性を比較した。
論文参考訳（メタデータ） (2024-06-04T16:14:55Z)
Skill Disentanglement for Imitation Learning from Suboptimal Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文参考訳（メタデータ） (2023-06-13T17:24:37Z)
MA2CL:Masked Attentive Contrastive Learning for Multi-Agent Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。 MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文参考訳（メタデータ） (2023-06-03T05:32:19Z)
Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。正のラベル付き対逆模倣学習アルゴリズムを開発した。エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文参考訳（メタデータ） (2023-02-13T11:26:44Z)
ACE: Cooperative Multi-agent Q-learning with Bidirectional Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。 ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文参考訳（メタデータ） (2022-11-29T10:22:55Z)
Sample-Efficient Multi-Agent Reinforcement Learning with Demonstrations for Flocking Control [6.398557794102739]
浮揚制御は無人航空機や自律水中車両のようなマルチエージェントシステムにおいて重要な問題である。従来の手法とは対照的に、マルチエージェント強化学習(MARL)はより柔軟に群れ制御の問題を解く。本稿では,MARL (PwD-MARL) の実証による事前学習手法を提案する。
論文参考訳（メタデータ） (2022-09-17T15:24:37Z)
Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文参考訳（メタデータ） (2021-07-10T03:49:41Z)
Automatic Curricula via Expert Demonstrations [6.651864489482536]
本稿では、強化学習(RL)アプローチとして、エキスパートデモ(ACED)による自動カリキュラムを提案する。 ACEDは、デモンストレーションをセクションに分割し、トレーニングエピソードを異なるセクションからサンプリングされた状態に初期化することによって、専門家のデモ軌跡からキュリキュラを抽出する。本稿では,ACEDと行動クローニングを組み合わせることで,最大1個の実演と20個の実演で積み重ねタスクを学習できることを示す。
論文参考訳（メタデータ） (2021-06-16T22:21:09Z)
Celebrating Diversity in Shared Multi-Agent Reinforcement Learning [20.901606233349177]
深層多エージェント強化学習は、複雑な協調的な課題を解決することを約束している。本稿では,共有型マルチエージェント強化学習の最適化と表現に多様性を導入することを目的とする。提案手法は,Google Research Footballと超硬度StarCraft IIマイクロマネジメントタスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2021-06-04T00:55:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。