論文の概要: Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.17052v2
- Date: Thu, 28 Dec 2023 02:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 22:48:52.924173
- Title: Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning
- Title(参考訳): 安全モデルに基づくマルチエージェント平均場強化学習
- Authors: Matej Jusup, Barna P\'asztor, Tadeusz Janik, Kenan Zhang, Francesco
Corman, Andreas Krause and Ilija Bogunovic
- Abstract要約: 平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
- 参考スコア(独自算出の注目度): 48.667697255912614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many applications, e.g., in shared mobility, require coordinating a large
number of agents. Mean-field reinforcement learning addresses the resulting
scalability challenge by optimizing the policy of a representative agent
interacting with the infinite population of identical agents instead of
considering individual pairwise interactions. In this paper, we address an
important generalization where there exist global constraints on the
distribution of agents (e.g., requiring capacity constraints or minimum
coverage requirements to be met). We propose Safe-M$^3$-UCRL, the first
model-based mean-field reinforcement learning algorithm that attains safe
policies even in the case of unknown transitions. As a key ingredient, it uses
epistemic uncertainty in the transition model within a log-barrier approach to
ensure pessimistic constraints satisfaction with high probability. Beyond the
synthetic swarm motion benchmark, we showcase Safe-M$^3$-UCRL on the vehicle
repositioning problem faced by many shared mobility operators and evaluate its
performance through simulations built on vehicle trajectory data from a service
provider in Shenzhen. Our algorithm effectively meets the demand in critical
areas while ensuring service accessibility in regions with low demand.
- Abstract(参考訳): 多くのアプリケーション、例えば共有モビリティでは、多数のエージェントをコーディネートする必要がある。
平均場強化学習は、個々のペアワイズ相互作用を考慮せず、同一エージェントの無限集団と相互作用する代表エージェントのポリシーを最適化することで、結果として生じるスケーラビリティの課題に対処する。
本稿では,エージェントの分布に世界的な制約(キャパシティ制約や最小カバレッジ要件など)が存在する場合の,重要な一般化について述べる。
提案手法は,未知の遷移においても安全なポリシを実現する最初のモデルベース平均場強化学習アルゴリズムであるsafe-m$^3$-ucrlを提案する。
鍵となる要素として、ログバリアアプローチにおける遷移モデルにおけるエピステミック不確実性を利用して、高い確率で悲観的制約の満足度を保証する。
合成Swarmモーションベンチマークの他に、多くの共有モビリティオペレーターが直面している車両再配置問題にSafe-M$^3$-UCRLを示し、深センのサービスプロバイダによる車両軌道データに基づくシミュレーションによりその性能を評価する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
関連論文リスト
- Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - Agent-Agnostic Centralized Training for Decentralized Multi-Agent Cooperative Driving [17.659812774579756]
本研究では,自律走行車における分散型協調運転ポリシーを学習する非対称アクター・批判モデルを提案する。
マスキングを用いたアテンションニューラルネットワークを用いることで,実世界の交通動態と部分観測可能性の効率よく管理できる。
論文 参考訳(メタデータ) (2024-03-18T16:13:02Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - DePAint: A Decentralized Safe Multi-Agent Reinforcement Learning Algorithm considering Peak and Average Constraints [1.1549572298362787]
本稿では,この問題を解決するために,モーメントに基づく分散勾配法DePaintを提案する。
これは、ピーク制約と平均制約の両方を考慮した、プライバシ保存で完全に分散化されたマルチエージェント強化学習アルゴリズムとしては初めてのものである。
論文 参考訳(メタデータ) (2023-10-22T16:36:03Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z) - Combining Propositional Logic Based Decision Diagrams with Decision
Making in Urban Systems [10.781866671930851]
我々は不確実性と部分的可観測性を考慮したマルチエージェントパスフィンディングの課題に取り組む。
我々は命題論理を用いて、RLの高速なシミュレーションを可能にするために、RLアルゴリズムとそれらを統合する。
論文 参考訳(メタデータ) (2020-11-09T13:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。