論文の概要: Discrete-Time Mean Field Control with Environment States
- arxiv url: http://arxiv.org/abs/2104.14900v1
- Date: Fri, 30 Apr 2021 10:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:26:48.547073
- Title: Discrete-Time Mean Field Control with Environment States
- Title(参考訳): 環境状態を考慮した離散時間平均場制御
- Authors: Kai Cui, Anam Tahir, Mark Sinzger, Heinz Koeppl
- Abstract要約: 平均フィールド制御と平均フィールドゲームは、多くのエージェントとの大規模なマルチエージェント問題のためのトラクタブルソリューションとして確立されています。
有限エージェントケースでのエージェント数の増加に伴い、近似最適性を厳格に確立します。
動的プログラミングの原則が成り立ち、その結果、最適な定常的なポリシーが存在することが分かりました。
- 参考スコア(独自算出の注目度): 25.44061731738579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning methods have shown remarkable potential in
solving complex multi-agent problems but mostly lack theoretical guarantees.
Recently, mean field control and mean field games have been established as a
tractable solution for large-scale multi-agent problems with many agents. In
this work, driven by a motivating scheduling problem, we consider a
discrete-time mean field control model with common environment states. We
rigorously establish approximate optimality as the number of agents grows in
the finite agent case and find that a dynamic programming principle holds,
resulting in the existence of an optimal stationary policy. As exact solutions
are difficult in general due to the resulting continuous action space of the
limiting mean field Markov decision process, we apply established deep
reinforcement learning methods to solve the associated mean field control
problem. The performance of the learned mean field control policy is compared
to typical multi-agent reinforcement learning approaches and is found to
converge to the mean field performance for sufficiently many agents, verifying
the obtained theoretical results and reaching competitive solutions.
- Abstract(参考訳): 多エージェント強化学習法は複雑なマルチエージェント問題の解法において顕著な可能性を示しているが、理論的な保証がほとんどない。
近年,多数のエージェントによる大規模マルチエージェント問題の解法として,平均場制御と平均場ゲームが確立されている。
本研究は,モチベーションスケジューリング問題に動機づけられ,共通の環境状態を持つ離散時間平均場制御モデルを検討する。
エージェント数が有限エージェントの場合で増加するにつれて、近似最適性が厳密に確立され、動的プログラミング原理が成り立つことが判明し、最適な定常ポリシーが存在する。
限界平均場決定過程の連続的な作用空間により、正確な解は一般に難しいため、関連する平均場制御問題を解くために確立された深部強化学習法を適用する。
学習平均場制御ポリシーの性能は、典型的なマルチエージェント強化学習手法と比較し、十分な数のエージェントの平均場性能に収束し、得られた理論結果を検証し、競合解に達することが判明した。
関連論文リスト
- DePAint: A Decentralized Safe Multi-Agent Reinforcement Learning Algorithm considering Peak and Average Constraints [1.1549572298362787]
本稿では,この問題を解決するために,モーメントに基づく分散勾配法DePaintを提案する。
これは、ピーク制約と平均制約の両方を考慮した、プライバシ保存で完全に分散化されたマルチエージェント強化学習アルゴリズムとしては初めてのものである。
論文 参考訳(メタデータ) (2023-10-22T16:36:03Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Major-Minor Mean Field Multi-Agent Reinforcement Learning [29.296206774925388]
マルチエージェント強化学習(MARL)は多くのエージェントに拡張することが困難である。
平均場制御(MFC)を用いた最近のMARLは、他の難易度の高いMARLに対するトラクタブルで厳密なアプローチを提供する。
我々は、MFCを多種多様な複雑なエージェントを同時にモデル化するように一般化する。
論文 参考訳(メタデータ) (2023-03-19T14:12:57Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Scalable Task-Driven Robotic Swarm Control via Collision Avoidance and
Learning Mean-Field Control [23.494528616672024]
我々は、最先端平均場制御技術を用いて、多くのエージェントSwarm制御を分散の古典的な単一エージェント制御に変換する。
そこで我々は,衝突回避と平均場制御の学習を,知的ロボット群動作を牽引的に設計するための統一的な枠組みに統合する。
論文 参考訳(メタデータ) (2022-09-15T16:15:04Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。