論文の概要: Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.03972v1
- Date: Tue, 6 Feb 2024 13:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 14:54:49.807477
- Title: Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning
- Title(参考訳): 多エージェント深部強化学習における協調探索のための統合内在的動機付け
- Authors: Maxime Toquebiau, Nicolas Bredeche, Fa\"iz Benamar, Jae-Yun Jun
- Abstract要約: 本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent deep reinforcement learning (MADRL) problems often encounter the
challenge of sparse rewards. This challenge becomes even more pronounced when
coordination among agents is necessary. As performance depends not only on one
agent's behavior but rather on the joint behavior of multiple agents, finding
an adequate solution becomes significantly harder. In this context, a group of
agents can benefit from actively exploring different joint strategies in order
to determine the most efficient one. In this paper, we propose an approach for
rewarding strategies where agents collectively exhibit novel behaviors. We
present JIM (Joint Intrinsic Motivation), a multi-agent intrinsic motivation
method that follows the centralized learning with decentralized execution
paradigm. JIM rewards joint trajectories based on a centralized measure of
novelty designed to function in continuous environments. We demonstrate the
strengths of this approach both in a synthetic environment designed to reveal
shortcomings of state-of-the-art MADRL methods, and in simulated robotic tasks.
Results show that joint exploration is crucial for solving tasks where the
optimal strategy requires a high level of coordination.
- Abstract(参考訳): マルチエージェント深部強化学習(MADRL)問題はしばしばスパース報酬の課題に遭遇する。
エージェント間の調整が必要な場合、この課題はさらに顕著になる。
性能はエージェントの振舞いだけでなく、複数のエージェントの関節振舞いにも依存するため、適切な解を見つけることは著しく困難になる。
この文脈では、エージェントのグループは、最も効率的な戦略を決定するために、さまざまな共同戦略を積極的に探究することで利益を得ることができる。
本稿では,エージェントが集団で新しい行動を示す戦略を報奨する手法を提案する。
本稿では,分散実行パラダイムを用いた集中学習に追従する多エージェント固有の動機づけ手法であるJIMを提案する。
JIMは、継続的な環境で機能するように設計されたノベルティの集中的な尺度に基づいて、共同軌道に報いる。
本手法の強みは,最先端のMADRL手法の欠点を明らかにするために設計された合成環境と,シミュレーションロボットタスクの両方で実証する。
その結果、最適戦略が高いレベルの調整を必要とする課題を解決するためには共同探索が不可欠であることが示された。
関連論文リスト
- Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z) - Cooperative Reward Shaping for Multi-Agent Pathfinding [4.244426154524592]
MAPF(Multi-Agent Pathfinding)の主な目的は、全てのエージェントに対して効率的で競合のないパスを計画することである。
従来のマルチエージェントパス計画アルゴリズムは、複数のエージェントに対して効率的な分散パス計画を実現するのに苦労する。
独立Q-Learning(IQL)に基づく独自の報酬形成手法を紹介する。
論文 参考訳(メタデータ) (2024-07-15T02:44:41Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Multiagent Deep Reinforcement Learning: Challenges and Directions
Towards Human-Like Approaches [0.0]
本稿では,最も一般的なマルチエージェント問題表現とその主な課題について述べる。
これらの課題に対処する5つの研究領域を特定します。
我々は,マルチエージェント強化学習が成功するためには,これらの課題を学際的アプローチで解決することを提案する。
論文 参考訳(メタデータ) (2021-06-29T19:53:15Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。