論文の概要: Approximate Linear Programming and Decentralized Policy Improvement in
Cooperative Multi-agent Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2311.11789v1
- Date: Mon, 20 Nov 2023 14:14:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 18:39:04.559743
- Title: Approximate Linear Programming and Decentralized Policy Improvement in
Cooperative Multi-agent Markov Decision Processes
- Title(参考訳): 協調マルチエージェントマルコフ決定過程における近似線形計画法と分散ポリシー改善
- Authors: Lakshmi Mandal, Chandrashekar Lakshminarayanan, and Shalabh Bhatnagar
- Abstract要約: 協調型多エージェント有限・無限水平分散型MDPに対する近似的ポリシー反復アルゴリズムを提案する。
我々のアルゴリズムは、多数の状態と複数のエージェントの両方を扱うことができる。
- 参考スコア(独自算出の注目度): 5.842054972839244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we consider a `cooperative' multi-agent Markov decision process
(MDP) involving m greater than 1 agents, where all agents are aware of the
system model. At each decision epoch, all the m agents cooperatively select
actions in order to maximize a common long-term objective. Since the number of
actions grows exponentially in the number of agents, policy improvement is
computationally expensive. Recent works have proposed using decentralized
policy improvement in which each agent assumes that the decisions of the other
agents are fixed and it improves its decisions unilaterally. Yet, in these
works, exact values are computed. In our work, for cooperative multi-agent
finite and infinite horizon discounted MDPs, we propose suitable approximate
policy iteration algorithms, wherein we use approximate linear programming to
compute the approximate value function and use decentralized policy
improvement. Thus our algorithms can handle both large number of states as well
as multiple agents. We provide theoretical guarantees for our algorithms and
also demonstrate the performance of our algorithms on some numerical examples.
- Abstract(参考訳): 本研究では,mが1以上のエージェントを含む「協調的」マルチエージェントマルコフ決定プロセス(MDP)について検討し,全てのエージェントがシステムモデルを認識している。
各決定時期において、すべてのmエージェントは共通の長期的な目的を最大化するために協調的に行動を選択する。
アクションの数はエージェント数で指数関数的に増加するので、ポリシーの改善は計算コストがかかる。
近年の研究では、各エージェントが他のエージェントの判断を固定し、一方的に決定を改善すると仮定する分散ポリシー改善が提案されている。
しかし、これらの研究では正確な値が計算される。
本研究は, 協調型多エージェント有限・無限水平縮小型MDPに対して, 近似線形計画法を用いて近似値関数を計算し, 分散化政策改善を利用する適切な近似ポリシー反復アルゴリズムを提案する。
したがって、我々のアルゴリズムは多数の状態と複数のエージェントの両方を処理できる。
我々は,アルゴリズムの理論的保証を提供するとともに,いくつかの数値例でアルゴリズムの性能を実証する。
関連論文リスト
- Decentralised Q-Learning for Multi-Agent Markov Decision Processes with
a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。
目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文 参考訳(メタデータ) (2023-11-21T13:56:44Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Multiagent Value Iteration Algorithms in Dynamic Programming and
Reinforcement Learning [0.0]
各段階における制御がいくつかの異なる決定から構成される無限水平動的プログラミング問題を考える。
以前の研究では、ポリシーの反復アルゴリズムを導入しました。
論文 参考訳(メタデータ) (2020-05-04T16:34:24Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。