論文の概要: Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.17052v2
- Date: Thu, 28 Dec 2023 02:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 22:48:52.924173
- Title: Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning
- Title(参考訳): 安全モデルに基づくマルチエージェント平均場強化学習
- Authors: Matej Jusup, Barna P\'asztor, Tadeusz Janik, Kenan Zhang, Francesco
Corman, Andreas Krause and Ilija Bogunovic
- Abstract要約: 平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
- 参考スコア(独自算出の注目度): 48.667697255912614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many applications, e.g., in shared mobility, require coordinating a large
number of agents. Mean-field reinforcement learning addresses the resulting
scalability challenge by optimizing the policy of a representative agent
interacting with the infinite population of identical agents instead of
considering individual pairwise interactions. In this paper, we address an
important generalization where there exist global constraints on the
distribution of agents (e.g., requiring capacity constraints or minimum
coverage requirements to be met). We propose Safe-M$^3$-UCRL, the first
model-based mean-field reinforcement learning algorithm that attains safe
policies even in the case of unknown transitions. As a key ingredient, it uses
epistemic uncertainty in the transition model within a log-barrier approach to
ensure pessimistic constraints satisfaction with high probability. Beyond the
synthetic swarm motion benchmark, we showcase Safe-M$^3$-UCRL on the vehicle
repositioning problem faced by many shared mobility operators and evaluate its
performance through simulations built on vehicle trajectory data from a service
provider in Shenzhen. Our algorithm effectively meets the demand in critical
areas while ensuring service accessibility in regions with low demand.
- Abstract(参考訳): 多くのアプリケーション、例えば共有モビリティでは、多数のエージェントをコーディネートする必要がある。
平均場強化学習は、個々のペアワイズ相互作用を考慮せず、同一エージェントの無限集団と相互作用する代表エージェントのポリシーを最適化することで、結果として生じるスケーラビリティの課題に対処する。
本稿では,エージェントの分布に世界的な制約(キャパシティ制約や最小カバレッジ要件など)が存在する場合の,重要な一般化について述べる。
提案手法は,未知の遷移においても安全なポリシを実現する最初のモデルベース平均場強化学習アルゴリズムであるsafe-m$^3$-ucrlを提案する。
鍵となる要素として、ログバリアアプローチにおける遷移モデルにおけるエピステミック不確実性を利用して、高い確率で悲観的制約の満足度を保証する。
合成Swarmモーションベンチマークの他に、多くの共有モビリティオペレーターが直面している車両再配置問題にSafe-M$^3$-UCRLを示し、深センのサービスプロバイダによる車両軌道データに基づくシミュレーションによりその性能を評価する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
関連論文リスト
- DePAint: A Decentralized Safe Multi-Agent Reinforcement Learning
Algorithm considering Peak and Average Constraints [1.2617078020344619]
本稿では分散環境でのマルチエージェントポリシー最適化の問題に対処する。
モーメントに基づく分散型政策勾配法であるDePaintを提案し,その解法を提案する。
私たちの知る限りでは、これは、ピークと平均的な制約の両方を考慮に入れた、プライバシ保護で完全に分散化されたマルチエージェント強化学習アルゴリズムとしては初めてのものです。
論文 参考訳(メタデータ) (2023-10-22T16:36:03Z) - MIR2: Towards Provably Robust Multi-Agent Reinforcement Learning by
Mutual Information Regularization [39.53629344559309]
日常的なシナリオでポリシーを訓練し、相互情報をロバストな正規化として最小化するMIR2を提案する。
私たちのMIR2は、StarCraft II、Multi-Adnt Mujoco、そしてLendezvousのマックスミン最適化よりも、最悪の敵に対するレジリエンスが高い。
論文 参考訳(メタデータ) (2023-10-15T13:35:51Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Combining Propositional Logic Based Decision Diagrams with Decision
Making in Urban Systems [10.781866671930851]
我々は不確実性と部分的可観測性を考慮したマルチエージェントパスフィンディングの課題に取り組む。
我々は命題論理を用いて、RLの高速なシミュレーションを可能にするために、RLアルゴリズムとそれらを統合する。
論文 参考訳(メタデータ) (2020-11-09T13:13:54Z) - A Deep Multi-Agent Reinforcement Learning Approach to Autonomous
Separation Assurance [5.196149362684628]
可変数の航空機間の衝突を識別・解決するために, 深層多エージェント強化学習フレームワークを提案する。
提案手法は,BlueSkyの航空交通制御環境における3つのケーススタディで検証された。
論文 参考訳(メタデータ) (2020-03-17T16:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。