論文の概要: Reward Machines for Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.01962v2
- Date: Tue, 9 Feb 2021 00:28:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 05:56:13.188132
- Title: Reward Machines for Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習のためのリワードマシン
- Authors: Cyrus Neary, Zhe Xu, Bo Wu, and Ufuk Topcu
- Abstract要約: 協調型マルチエージェント強化学習において、エージェントの集合は共通の目標を達成するために共有環境で対話することを学ぶ。
本稿では、報酬関数の構造化表現として使われる単純な機械である報酬機械(RM)を用いて、チームのタスクを符号化する手法を提案する。
マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
- 参考スコア(独自算出の注目度): 30.84689303706561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cooperative multi-agent reinforcement learning, a collection of agents
learns to interact in a shared environment to achieve a common goal. We propose
the use of reward machines (RM) -- Mealy machines used as structured
representations of reward functions -- to encode the team's task. The proposed
novel interpretation of RMs in the multi-agent setting explicitly encodes
required teammate interdependencies, allowing the team-level task to be
decomposed into sub-tasks for individual agents. We define such a notion of RM
decomposition and present algorithmically verifiable conditions guaranteeing
that distributed completion of the sub-tasks leads to team behavior
accomplishing the original task. This framework for task decomposition provides
a natural approach to decentralized learning: agents may learn to accomplish
their sub-tasks while observing only their local state and abstracted
representations of their teammates. We accordingly propose a decentralized
q-learning algorithm. Furthermore, in the case of undiscounted rewards, we use
local value functions to derive lower and upper bounds for the global value
function corresponding to the team task. Experimental results in three discrete
settings exemplify the effectiveness of the proposed RM decomposition approach,
which converges to a successful team policy an order of magnitude faster than a
centralized learner and significantly outperforms hierarchical and independent
q-learning approaches.
- Abstract(参考訳): 協調型マルチエージェント強化学習では、エージェントの集まりは共通の目標を達成するために共有環境での相互作用を学習する。
我々は、チームタスクをエンコードするために、報酬関数の構造表現として使用される報酬機械(rm)の使用を提案する。
マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
このようなrm分解の概念を定義し、サブタスクの分散完了が元のタスクを完了させるチームの振る舞いにつながることを保証したアルゴリズム検証可能な条件を提示する。
このタスク分割のフレームワークは、分散学習への自然なアプローチを提供する。エージェントは、ローカル状態とチームメイトの抽象化された表現のみを観察しながら、サブタスクを達成することを学べる。
そこで我々は分散q-learningアルゴリズムを提案する。
さらに、未計算の報酬の場合、局所値関数を使用して、チームタスクに対応するグローバル値関数の下限と上限を導出します。
実験結果から、3つの離散的な設定が提案されたRM分解手法の有効性を実証する。これは、チームの方針を集中学習者よりも桁違いに早く収束させ、階層的および独立したq-ラーニング手法よりも大幅に優れる。
関連論文リスト
- Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。
Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文 参考訳(メタデータ) (2024-11-02T09:03:23Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines [5.600971575680638]
Reward Machines (RMs) を用いた協調型マルチエージェント強化学習(MARL)問題の検討
より複雑なシナリオを扱えるRM(MAHRM)階層のマルチエージェント強化学習を提案する。
3つの協調MARLドメインの実験結果から、MAHRMは、他のMARLメソッドよりも高いレベルの事象の事前知識の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-03-08T06:38:22Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Hierarchies of Reward Machines [75.55324974788475]
リワードマシン(Reward Machine, RM)は、有限状態機械による強化学習タスクの報酬関数を表現するための最近の形式である。
本稿では,RMを他のRMを呼ばせることによって,サブタスク構造をさらに抽象化する形式的手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T12:39:24Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via
Multi-Agent Multi-Task Reinforcement Learning [22.890835786710316]
本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。
複数の自律型プラトンは、C-V2X通信技術を利用して、協力的認識メッセージ(CAM)をフォロワーに広める。
我々は,マルチエージェント強化学習(marl)に基づく分散リソース割当フレームワークを活用し,各小隊リーダ(pl)がエージェントとして行動し,環境と相互作用して最適方針を学ぶ。
論文 参考訳(メタデータ) (2021-05-10T08:39:56Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。