論文の概要: Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments
- arxiv url: http://arxiv.org/abs/2108.06148v1
- Date: Fri, 13 Aug 2021 09:44:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 13:13:13.462234
- Title: Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments
- Title(参考訳): 部分観測可能なグリッド環境におけるマルチエージェントパスフィニングのためのQミキシングネットワーク
- Authors: Vasilii Davydov, Alexey Skrynnik, Konstantin Yakovlev, Aleksandr I.
Panov
- Abstract要約: 部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the problem of multi-agent navigation in partially
observable grid environments. This problem is challenging for centralized
planning approaches as they, typically, rely on the full knowledge of the
environment. We suggest utilizing the reinforcement learning approach when the
agents, first, learn the policies that map observations to actions and then
follow these policies to reach their goals. To tackle the challenge associated
with learning cooperative behavior, i.e. in many cases agents need to yield to
each other to accomplish a mission, we use a mixing Q-network that complements
learning individual policies. In the experimental evaluation, we show that such
approach leads to plausible results and scales well to large number of agents.
- Abstract(参考訳): 本稿では,部分観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題を考える。
この問題は通常、環境に関する完全な知識に依存しているため、集中型計画のアプローチでは困難である。
エージェントがまず、観察を行動にマップするポリシーを学び、そのポリシーに従って目標を達成する場合、強化学習アプローチを利用するように提案する。
協調行動の学習にかかわる課題、すなわち
多くの場合、エージェントはミッションを達成するために互いに譲歩する必要がありますが、個別のポリシーを補完する混合Q-ネットワークを使用します。
実験評価では,このようなアプローチが有望な結果をもたらし,多数のエージェントによく適用できることを示した。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - Learn to Follow: Decentralized Lifelong Multi-agent Pathfinding via
Planning and Learning [46.354187895184154]
マルチエージェントパスフィンディング(MAPF)問題は通常、グラフに制限されたエージェントの集合に対する競合のないパスの集合を見つけるよう要求する。
本研究では,エージェントの位置や目標に関する情報をすべて収集する中央制御器が存在しない場合の分散MAPF設定について検討する。
我々は,先行するエージェントに新たな目標を連続的に割り当てることを含むMAPFの実用上重要な寿命変化に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-02T13:51:32Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - A Decentralized Policy Gradient Approach to Multi-task Reinforcement
Learning [13.733491423871383]
マルチタスク強化学習問題を解決するためのフレームワークを開発する。
目標は、異なる環境で効果的に機能する共通ポリシーを学ぶことである。
MTRLの2つの基本的な課題に注目する。
論文 参考訳(メタデータ) (2020-06-08T03:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。