論文の概要: Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines
- arxiv url: http://arxiv.org/abs/2403.07005v1
- Date: Fri, 8 Mar 2024 06:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 00:27:04.932979
- Title: Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines
- Title(参考訳): リワードマシンの階層化によるマルチエージェント強化学習
- Authors: Xuejing Zheng, Chao Yu
- Abstract要約: Reward Machines (RMs) を用いた協調型マルチエージェント強化学習(MARL)問題の検討
より複雑なシナリオを扱えるRM(MAHRM)階層のマルチエージェント強化学習を提案する。
3つの協調MARLドメインの実験結果から、MAHRMは、他のMARLメソッドよりも高いレベルの事象の事前知識の方が優れていることが示された。
- 参考スコア(独自算出の注目度): 5.600971575680638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the cooperative Multi-Agent Reinforcement Learning
(MARL) problems using Reward Machines (RMs) to specify the reward functions
such that the prior knowledge of high-level events in a task can be leveraged
to facilitate the learning efficiency. Unlike the existing work that RMs have
been incorporated into MARL for task decomposition and policy learning in
relatively simple domains or with an assumption of independencies among the
agents, we present Multi-Agent Reinforcement Learning with a Hierarchy of RMs
(MAHRM) that is capable of dealing with more complex scenarios when the events
among agents can occur concurrently and the agents are highly interdependent.
MAHRM exploits the relationship of high-level events to decompose a task into
a hierarchy of simpler subtasks that are assigned to a small group of agents,
so as to reduce the overall computational complexity.
Experimental results in three cooperative MARL domains show that MAHRM
outperforms other MARL methods using the same prior knowledge of high-level
events.
- Abstract(参考訳): 本稿では,報酬機械(rms)を用いた協調的マルチエージェント強化学習(marl)問題について検討し,タスクにおけるハイレベル事象の事前知識を活用し,学習効率を高めるための報酬関数を特定する。
比較的単純なドメインでのタスク分解や政策学習のためにRMがMARLに組み込まれた既存の作業と異なり,エージェント間のイベントが同時に発生し,エージェント間の相互依存度が高い場合に,より複雑なシナリオを処理可能な,RMの階層によるマルチエージェント強化学習(MAHRM)を提案する。
mahrmはハイレベルなイベントの関係を利用して、タスクを小さなエージェントグループに割り当てられた単純なサブタスクの階層に分解し、全体的な計算複雑性を低減する。
3つの協調MARLドメインの実験結果から、MAHRMは、他のMARLメソッドよりも高いレベルの事象の事前知識の方が優れていることが示された。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Hierarchies of Reward Machines [75.55324974788475]
リワードマシン(Reward Machine, RM)は、有限状態機械による強化学習タスクの報酬関数を表現するための最近の形式である。
本稿では,RMを他のRMを呼ばせることによって,サブタスク構造をさらに抽象化する形式的手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T12:39:24Z) - ALMA: Hierarchical Learning for Composite Multi-Agent Tasks [21.556661319375255]
本稿では,構造化タスクを活用可能な汎用学習手法であるALMAを紹介する。
ALMAは高レベルのサブタスク割り当てポリシーと低レベルのエージェントポリシーを同時に学習する。
ALMAは様々な課題のある環境で高度な協調行動を学ぶことを実証する。
論文 参考訳(メタデータ) (2022-05-27T19:12:23Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - KnowSR: Knowledge Sharing among Homogeneous Agents in Multi-agent
Reinforcement Learning [16.167201058368303]
本稿では,KnowSRと呼ばれるマルチエージェント強化学習(MARL)アルゴリズムの適応手法を提案する。
我々は、知識蒸留(KD)の概念を用いて、訓練フェーズを短縮するためにエージェント間で知識を共有する。
KnowSRの堅牢性と有効性を実証的に示すために,我々は,協調的・競合的なシナリオにおける最先端のMARLアルゴリズムの広範な実験を行った。
論文 参考訳(メタデータ) (2021-05-25T02:19:41Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Reward Machines for Cooperative Multi-Agent Reinforcement Learning [30.84689303706561]
協調型マルチエージェント強化学習において、エージェントの集合は共通の目標を達成するために共有環境で対話することを学ぶ。
本稿では、報酬関数の構造化表現として使われる単純な機械である報酬機械(RM)を用いて、チームのタスクを符号化する手法を提案する。
マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
論文 参考訳(メタデータ) (2020-07-03T23:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。