論文の概要: Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.17052v1
- Date: Thu, 29 Jun 2023 15:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 12:39:15.843314
- Title: Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning
- Title(参考訳): 安全モデルに基づくマルチエージェント平均場強化学習
- Authors: Matej Jusup, Barna P\'asztor, Tadeusz Janik, Kenan Zhang, Francesco
Corman, Andreas Krause and Ilija Bogunovic
- Abstract要約: 平均場強化学習は代表者の政策を最適化するために用いられる。
我々は、未知の遷移ダイナミクスであっても安全なポリシーを実現するSafe-$textM3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
- 参考スコア(独自算出の注目度): 64.686385221159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many applications, e.g., in shared mobility, require coordinating a large
number of agents. Mean-field reinforcement learning addresses the resulting
scalability challenge by optimizing the policy of a representative agent. In
this paper, we address an important generalization where there exist global
constraints on the distribution of agents (e.g., requiring capacity constraints
or minimum coverage requirements to be met). We propose Safe-$\text{M}^3$-UCRL,
the first model-based algorithm that attains safe policies even in the case of
unknown transition dynamics. As a key ingredient, it uses epistemic uncertainty
in the transition model within a log-barrier approach to ensure pessimistic
constraints satisfaction with high probability. We showcase
Safe-$\text{M}^3$-UCRL on the vehicle repositioning problem faced by many
shared mobility operators and evaluate its performance through simulations
built on Shenzhen taxi trajectory data. Our algorithm effectively meets the
demand in critical areas while ensuring service accessibility in regions with
low demand.
- Abstract(参考訳): 多くのアプリケーション、例えば共有モビリティでは、多数のエージェントをコーディネートする必要がある。
平均場強化学習は、代表エージェントのポリシーを最適化することで、結果として生じるスケーラビリティの課題に対処する。
本稿では,エージェントの分布に世界的な制約(キャパシティ制約や最小カバレッジ要件など)が存在する場合の,重要な一般化について述べる。
我々は、未知の遷移ダイナミクスであっても安全なポリシーを実現する最初のモデルベースアルゴリズムであるSafe-$\text{M}^3$-UCRLを提案する。
鍵となる要素として、ログバリアアプローチにおける遷移モデルにおけるエピステミック不確実性を利用して、高い確率で悲観的制約の満足度を保証する。
我々は、多くの共有モビリティオペレーターが直面する車両再配置問題にSafe-$\text{M}^3$-UCRLを示し、深センタクシー軌道データに基づくシミュレーションによりその性能を評価する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
関連論文リスト
- DePAint: A Decentralized Safe Multi-Agent Reinforcement Learning Algorithm considering Peak and Average Constraints [1.1549572298362787]
本稿では,この問題を解決するために,モーメントに基づく分散勾配法DePaintを提案する。
これは、ピーク制約と平均制約の両方を考慮した、プライバシ保存で完全に分散化されたマルチエージェント強化学習アルゴリズムとしては初めてのものである。
論文 参考訳(メタデータ) (2023-10-22T16:36:03Z) - MIR2: Towards Provably Robust Multi-Agent Reinforcement Learning by
Mutual Information Regularization [39.53629344559309]
日常的なシナリオでポリシーを訓練し、相互情報をロバストな正規化として最小化するMIR2を提案する。
私たちのMIR2は、StarCraft II、Multi-Adnt Mujoco、そしてLendezvousのマックスミン最適化よりも、最悪の敵に対するレジリエンスが高い。
論文 参考訳(メタデータ) (2023-10-15T13:35:51Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Combining Propositional Logic Based Decision Diagrams with Decision
Making in Urban Systems [10.781866671930851]
我々は不確実性と部分的可観測性を考慮したマルチエージェントパスフィンディングの課題に取り組む。
我々は命題論理を用いて、RLの高速なシミュレーションを可能にするために、RLアルゴリズムとそれらを統合する。
論文 参考訳(メタデータ) (2020-11-09T13:13:54Z) - A Deep Multi-Agent Reinforcement Learning Approach to Autonomous
Separation Assurance [5.196149362684628]
可変数の航空機間の衝突を識別・解決するために, 深層多エージェント強化学習フレームワークを提案する。
提案手法は,BlueSkyの航空交通制御環境における3つのケーススタディで検証された。
論文 参考訳(メタデータ) (2020-03-17T16:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。