論文の概要: AIR: Unifying Individual and Cooperative Exploration in Collective Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.15700v1
- Date: Fri, 20 Dec 2024 09:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:21:07.894302
- Title: AIR: Unifying Individual and Cooperative Exploration in Collective Multi-Agent Reinforcement Learning
- Title(参考訳): AIR: 集合的マルチエージェント強化学習における個人と共同探索の統合
- Authors: Guangchong Zhou, Zeren Zhang, Guoliang Fan,
- Abstract要約: 本稿では,2つの逆成分からなる同一性認識(AIR)による適応探索を提案する。
理論的には、AIRは個人と集団の両方の探索を訓練中に促進できることを証明し、様々なタスクにおけるAIRの有効性と有効性を示す実験を行った。
- 参考スコア(独自算出の注目度): 12.039673089296073
- License:
- Abstract: Exploration in cooperative multi-agent reinforcement learning (MARL) remains challenging for value-based agents due to the absence of an explicit policy. Existing approaches include individual exploration based on uncertainty towards the system and collective exploration through behavioral diversity among agents. However, the introduction of additional structures often leads to reduced training efficiency and infeasible integration of these methods. In this paper, we propose Adaptive exploration via Identity Recognition~(AIR), which consists of two adversarial components: a classifier that recognizes agent identities from their trajectories, and an action selector that adaptively adjusts the mode and degree of exploration. We theoretically prove that AIR can facilitate both individual and collective exploration during training, and experiments also demonstrate the efficiency and effectiveness of AIR across various tasks.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)の探索は、明確な方針が欠如しているため、価値に基づくエージェントにとって依然として困難である。
既存のアプローチには、システムに対する不確実性に基づく個人探索と、エージェント間の行動多様性による集団探索が含まれる。
しかし、追加構造を導入することで、トレーニング効率が低下し、これらの手法が統合できないことがしばしばある。
本稿では,エージェントの識別を軌跡から認識する分類器と,探索の態様や程度を適応的に調整する行動セレクタの2つの逆成分からなる適応探索(AIR)を提案する。
理論的には、AIRは個人と集団の両方の探索を訓練中に促進できることを証明し、様々なタスクにおけるAIRの有効性と有効性を示す実験を行った。
関連論文リスト
- Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Discovering Individual Rewards in Collective Behavior through Inverse
Multi-Agent Reinforcement Learning [3.4437947384641032]
政外逆マルチエージェント強化学習アルゴリズム(IMARL)を導入する。
実演を活用することで,アルゴリズムは報酬関数を自動的に発見し,エージェントの効果的なポリシーを学習する。
提案するIMARLアルゴリズムは, 構成成分の観点から, 集合力学を理解するための重要なステップである。
論文 参考訳(メタデータ) (2023-05-17T20:07:30Z) - Dual-AI: Dual-path Actor Interaction Learning for Group Activity
Recognition [103.62363658053557]
空間および時間変換器を柔軟に配置するDual-path Actor Interaction (DualAI) フレームワークを提案する。
また,Dual-AIの2つのインタラクティブパスの間に,MAC-Loss(Multiscale Actor Contrastive Loss)を導入する。
我々のデュアルAIは、異なるアクターの識別的特徴を融合させることでグループ活動の認識を促進することができる。
論文 参考訳(メタデータ) (2022-04-05T12:17:40Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Celebrating Diversity in Shared Multi-Agent Reinforcement Learning [20.901606233349177]
深層多エージェント強化学習は、複雑な協調的な課題を解決することを約束している。
本稿では,共有型マルチエージェント強化学習の最適化と表現に多様性を導入することを目的とする。
提案手法は,Google Research Footballと超硬度StarCraft IIマイクロマネジメントタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-06-04T00:55:03Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Non-local Policy Optimization via Diversity-regularized Collaborative
Exploration [45.997521480637836]
多様性規則化協調探索(DiCE)と呼ばれる新しい非局所的政策最適化フレームワークを提案する。
DiCEは異種エージェントのグループを利用して環境を同時に探索し、収集した経験を共有する。
このフレームワークをオン・ポリティクスとオフ・ポリティクスの両方で実装し、実験結果から、DCEがベースラインよりも大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2020-06-14T03:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。