論文の概要: Multiagent Model-based Credit Assignment for Continuous Control
- arxiv url: http://arxiv.org/abs/2112.13937v1
- Date: Mon, 27 Dec 2021 23:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-31 07:29:02.749067
- Title: Multiagent Model-based Credit Assignment for Continuous Control
- Title(参考訳): 連続制御のためのマルチエージェントモデルに基づくクレジット割り当て
- Authors: Dongge Han, Chris Xiaoxuan Lu, Tomasz Michalak, Michael Wooldridge
- Abstract要約: 本研究は,継続的制御のための分散マルチエージェント強化学習フレームワークを提案する。
我々はまず,集中型最適化が可能な協調型マルチエージェントPPOフレームワークを開発する。
次にエージェント固有の報酬信号を計算する汎用ゲーム理論クレジット割り当てフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.2595483703857835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (RL) has recently shown great promise in robotic
continuous control tasks. Nevertheless, prior research in this vein center
around the centralized learning setting that largely relies on the
communication availability among all the components of a robot. However, agents
in the real world often operate in a decentralised fashion without
communication due to latency requirements, limited power budgets and safety
concerns. By formulating robotic components as a system of decentralised
agents, this work presents a decentralised multiagent reinforcement learning
framework for continuous control. To this end, we first develop a cooperative
multiagent PPO framework that allows for centralized optimisation during
training and decentralised operation during execution. However, the system only
receives a global reward signal which is not attributed towards each agent. To
address this challenge, we further propose a generic game-theoretic credit
assignment framework which computes agent-specific reward signals. Last but not
least, we also incorporate a model-based RL module into our credit assignment
framework, which leads to significant improvement in sample efficiency. We
demonstrate the effectiveness of our framework on experimental results on
Mujoco locomotion control tasks. For a demo video please visit:
https://youtu.be/gFyVPm4svEY.
- Abstract(参考訳): 深部強化学習(RL)は最近、ロボット連続制御タスクにおいて大きな可能性を示している。
それでも、この研究は、ロボットのすべてのコンポーネント間のコミュニケーションの可用性に大きく依存する集中的な学習環境を中心に行われた。
しかし、現実世界のエージェントは、レイテンシの要求、限られた電力予算、安全上の懸念により、通信なしで分散的に運用されることが多い。
分散エージェントのシステムとしてロボットコンポーネントを定式化することにより,連続制御のための分散マルチエージェント強化学習フレームワークを提案する。
そこで,我々はまず,訓練中の集中型最適化と実行時の分散型運用を可能にする協調型マルチエージェントppoフレームワークを開発した。
しかし、システムは、各エージェントに属さないグローバル報酬信号を受信するだけである。
この課題に対処するために,エージェント固有の報酬信号を計算する汎用ゲーム理論クレジット割り当てフレームワークを提案する。
最後に重要なことは、モデルベースのRLモジュールをクレジット割り当てフレームワークに組み込むことで、サンプル効率が大幅に向上することです。
ムジョコ運動制御タスクにおける実験結果に対するフレームワークの有効性を示す。
デモビデオは、https://youtu.be/gfyvpm4svey。
関連論文リスト
- Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Lyapunov-Based Reinforcement Learning for Decentralized Multi-Agent
Control [3.3788926259119645]
分散マルチエージェント制御では、システムは未知あるいは非常に不確実なダイナミクスで複雑である。
深層強化学習(DRL)は、システムダイナミクスを知らずに、データからコントローラや政治を学ぶことを約束している。
既存のマルチエージェント強化学習(MARL)アルゴリズムは、マルチエージェントシステムの閉ループ安定性を保証することができない。
安定保証付き分散マルチエージェント制御のための新しいMARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-20T06:11:42Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。