論文の概要: Macro-Action-Based Deep Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.08646v2
- Date: Sat, 16 Oct 2021 19:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 05:19:00.506658
- Title: Macro-Action-Based Deep Multi-Agent Reinforcement Learning
- Title(参考訳): マクロアクションに基づく深層マルチエージェント強化学習
- Authors: Yuchen Xiao, Joshua Hoffman, and Christopher Amato
- Abstract要約: 本稿では,分散型および集中型マクロアクション値関数を学習するための2つのDeep Q-Network (DQN) に基づく手法を提案する。
ベンチマーク問題とより大きな領域の評価は、プリミティブアクションよりもマクロアクションによる学習の利点を示す。
- 参考スコア(独自算出の注目度): 17.73081797556005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world multi-robot systems, performing high-quality, collaborative
behaviors requires robots to asynchronously reason about high-level action
selection at varying time durations. Macro-Action Decentralized Partially
Observable Markov Decision Processes (MacDec-POMDPs) provide a general
framework for asynchronous decision making under uncertainty in fully
cooperative multi-agent tasks. However, multi-agent deep reinforcement learning
methods have only been developed for (synchronous) primitive-action problems.
This paper proposes two Deep Q-Network (DQN) based methods for learning
decentralized and centralized macro-action-value functions with novel
macro-action trajectory replay buffers introduced for each case. Evaluations on
benchmark problems and a larger domain demonstrate the advantage of learning
with macro-actions over primitive-actions and the scalability of our
approaches.
- Abstract(参考訳): 実世界のマルチロボットシステムでは、高品質で協調的な動作を行うには、ロボットが様々な時間でハイレベルなアクション選択を非同期に推論する必要がある。
MacDec-POMDPs (Macro-Action Decentralized partially Observable Markov Decision Processs) は、完全協調型マルチエージェントタスクにおける不確実性の下での非同期決定のための一般的なフレームワークを提供する。
しかし,マルチエージェント深部強化学習法は(同期)プリミティブアクション問題に対してのみ開発された。
本稿では、分散化および集中化マクロアクション値関数を学習するための2つのDeep Q-Network(DQN)に基づく手法を提案する。
ベンチマーク問題とより大きなドメインの評価は、プリミティブアクションよりもマクロアクションで学習することの利点と我々のアプローチのスケーラビリティを示している。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。
このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - Multi-agent Continual Coordination via Progressive Task
Contextualization [5.31057635825112]
本稿では,MACPro と呼ばれるプログレッシブタスクコンテキスト化によるマルチエージェント連続コーディネートを提案する。
複数のマルチエージェントベンチマークにおいて、既存の連続学習手法が失敗するのに対し、MACProは最適に近い性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-05-07T15:04:56Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。