論文の概要: Decentralized Graph-Based Multi-Agent Reinforcement Learning Using
Reward Machines
- arxiv url: http://arxiv.org/abs/2110.00096v1
- Date: Thu, 30 Sep 2021 21:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:30:04.679664
- Title: Decentralized Graph-Based Multi-Agent Reinforcement Learning Using
Reward Machines
- Title(参考訳): Reward Machines を用いた分散グラフベースマルチエージェント強化学習
- Authors: Jueming Hu, Zhe Xu, Weichang Wang, Guannan Qu, Yutian Pang, and
Yongming Liu
- Abstract要約: 報酬処理装置を用いて各エージェントのタスクを符号化し、報酬関数の内部構造を公開する。
本稿では,各エージェントに局所的なポリシーを付与する分散グラフに基づく強化学習アルゴリズムを提案する。
提案したDGRMアルゴリズムの有効性は,UAVパッケージデリバリーとCOVID-19パンデミック緩和の2つのケーススタディにより評価された。
- 参考スコア(独自算出の注目度): 5.34590273802424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-agent reinforcement learning (MARL), it is challenging for a
collection of agents to learn complex temporally extended tasks. The
difficulties lie in computational complexity and how to learn the high-level
ideas behind reward functions. We study the graph-based Markov Decision Process
(MDP) where the dynamics of neighboring agents are coupled. We use a reward
machine (RM) to encode each agent's task and expose reward function internal
structures. RM has the capacity to describe high-level knowledge and encode
non-Markovian reward functions. We propose a decentralized learning algorithm
to tackle computational complexity, called decentralized graph-based
reinforcement learning using reward machines (DGRM), that equips each agent
with a localized policy, allowing agents to make decisions independently, based
on the information available to the agents. DGRM uses the actor-critic
structure, and we introduce the tabular Q-function for discrete state problems.
We show that the dependency of Q-function on other agents decreases
exponentially as the distance between them increases. Furthermore, the
complexity of DGRM is related to the local information size of the largest
$\kappa$-hop neighborhood, and DGRM can find an
$O(\rho^{\kappa+1})$-approximation of a stationary point of the objective
function. To further improve efficiency, we also propose the deep DGRM
algorithm, using deep neural networks to approximate the Q-function and policy
function to solve large-scale or continuous state problems. The effectiveness
of the proposed DGRM algorithm is evaluated by two case studies, UAV package
delivery and COVID-19 pandemic mitigation. Experimental results show that local
information is sufficient for DGRM and agents can accomplish complex tasks with
the help of RM. DGRM improves the global accumulated reward by 119% compared to
the baseline in the case of COVID-19 pandemic mitigation.
- Abstract(参考訳): マルチエージェント強化学習(MARL)では、エージェントの集合体が複雑な時間的拡張タスクを学習することは困難である。
困難は計算複雑性と、報酬関数の背後にある高レベルのアイデアの学習方法にある。
グラフに基づくマルコフ決定過程 (MDP) について検討し, 周辺エージェントのダイナミクスを結合する。
報酬処理装置(RM)を用いて各エージェントのタスクを符号化し、報酬関数の内部構造を公開する。
rmは高いレベルの知識を記述でき、非マルコフ報酬関数をエンコードできる。
そこで我々は,各エージェントに局所的ポリシーを付与し,エージェントが利用可能な情報に基づいて,エージェントが独立して決定を下すことを可能にする分散グラフベース強化学習(DGRM)という,計算複雑性に対処する分散学習アルゴリズムを提案する。
DGRMはアクター・クリティック構造を用い、離散状態問題に対する表型Q-関数を導入する。
本稿では,他のエージェントに対するQ-関数の依存性が指数関数的に減少することを示す。
さらに、DGRMの複雑さは最大の$\kappa$-hop地区の局所情報サイズと関連しており、DGRMは目的関数の定常点の$O(\rho^{\kappa+1})$-approximationを見つけることができる。
さらに効率を向上させるために,深層ニューラルネットワークを用いてQ関数とポリシ関数を近似し,大規模あるいは連続的な状態問題を解くディープDGRMアルゴリズムを提案する。
提案手法の有効性は,UAVパッケージデリバリーとCOVID-19パンデミック緩和の2つの事例から評価した。
実験の結果,DGRMでは局所情報が十分であり,エージェントはRMの助けを借りて複雑なタスクを遂行できることがわかった。
DGRMは、新型コロナウイルス(COVID-19)のパンデミック対策のベースラインに比べて、世界の累積報酬を119%改善する。
関連論文リスト
- A Federated Online Restless Bandit Framework for Cooperative Resource Allocation [23.698976872351576]
MRPの未知系力学を用いた協調資源配分問題について検討する。
我々は、このマルチエージェントオンラインRMAB問題を解決するために、フェデレートトンプソン対応Whittle Index(FedTSWI)アルゴリズムを作成した。
数値計算の結果,提案アルゴリズムは,ベースラインと比較して,$mathcalO(sqrtTlog(T))$の高速収束率と性能の向上を実現している。
論文 参考訳(メタデータ) (2024-06-12T08:34:53Z) - Risk-Aware Distributed Multi-Agent Reinforcement Learning [8.287693091673658]
我々は,リスク認識行動の学習により,未知環境における意思決定問題を解決するために,分散MARLアプローチを開発した。
次に,CVaR QD-Learningアルゴリズムと呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-04T17:56:44Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Hierarchies of Reward Machines [75.55324974788475]
リワードマシン(Reward Machine, RM)は、有限状態機械による強化学習タスクの報酬関数を表現するための最近の形式である。
本稿では,RMを他のRMを呼ばせることによって,サブタスク構造をさらに抽象化する形式的手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T12:39:24Z) - Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement
Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Provably Efficient Multi-Agent Reinforcement Learning with Fully
Decentralized Communication [3.5450828190071655]
分散探索は強化学習におけるサンプリングの複雑さを低減する。
各エージェントが分散メッセージパスプロトコルを使用すると,グループ性能が大幅に向上することを示す。
グループ学習手法により多くのエージェントと情報共有を組み込むことで、最適ポリシーへの収束が加速することを示す。
論文 参考訳(メタデータ) (2021-10-14T14:27:27Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via
Multi-Agent Multi-Task Reinforcement Learning [22.890835786710316]
本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。
複数の自律型プラトンは、C-V2X通信技術を利用して、協力的認識メッセージ(CAM)をフォロワーに広める。
我々は,マルチエージェント強化学習(marl)に基づく分散リソース割当フレームワークを活用し,各小隊リーダ(pl)がエージェントとして行動し,環境と相互作用して最適方針を学ぶ。
論文 参考訳(メタデータ) (2021-05-10T08:39:56Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。