Fugu-MT 論文翻訳(概要): Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning

論文の概要: Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning

arxiv url: http://arxiv.org/abs/2306.17052v2
Date: Thu, 28 Dec 2023 02:40:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 22:48:52.924173
Title: Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning
Title（参考訳）: 安全モデルに基づくマルチエージェント平均場強化学習
Authors: Matej Jusup, Barna P\'asztor, Tadeusz Janik, Kenan Zhang, Francesco Corman, Andreas Krause and Ilija Bogunovic
Abstract要約: 平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
参考スコア（独自算出の注目度）: 48.667697255912614
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many applications, e.g., in shared mobility, require coordinating a large number of agents. Mean-field reinforcement learning addresses the resulting scalability challenge by optimizing the policy of a representative agent interacting with the infinite population of identical agents instead of considering individual pairwise interactions. In this paper, we address an important generalization where there exist global constraints on the distribution of agents (e.g., requiring capacity constraints or minimum coverage requirements to be met). We propose Safe-M$^3$-UCRL, the first model-based mean-field reinforcement learning algorithm that attains safe policies even in the case of unknown transitions. As a key ingredient, it uses epistemic uncertainty in the transition model within a log-barrier approach to ensure pessimistic constraints satisfaction with high probability. Beyond the synthetic swarm motion benchmark, we showcase Safe-M$^3$-UCRL on the vehicle repositioning problem faced by many shared mobility operators and evaluate its performance through simulations built on vehicle trajectory data from a service provider in Shenzhen. Our algorithm effectively meets the demand in critical areas while ensuring service accessibility in regions with low demand.
Abstract（参考訳）: 多くのアプリケーション、例えば共有モビリティでは、多数のエージェントをコーディネートする必要がある。平均場強化学習は、個々のペアワイズ相互作用を考慮せず、同一エージェントの無限集団と相互作用する代表エージェントのポリシーを最適化することで、結果として生じるスケーラビリティの課題に対処する。本稿では,エージェントの分布に世界的な制約(キャパシティ制約や最小カバレッジ要件など)が存在する場合の,重要な一般化について述べる。提案手法は,未知の遷移においても安全なポリシを実現する最初のモデルベース平均場強化学習アルゴリズムであるsafe-m$^3$-ucrlを提案する。鍵となる要素として、ログバリアアプローチにおける遷移モデルにおけるエピステミック不確実性を利用して、高い確率で悲観的制約の満足度を保証する。合成Swarmモーションベンチマークの他に、多くの共有モビリティオペレーターが直面している車両再配置問題にSafe-M$^3$-UCRLを示し、深センのサービスプロバイダによる車両軌道データに基づくシミュレーションによりその性能を評価する。本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。

関連論文リスト

Decentralized Consensus Inference-based Hierarchical Reinforcement Learning for Multi-Constrained UAV Pursuit-Evasion Game [0.0]
探索回避ゲーム(MC-PEG)における協調的侵入・形成包括作業は,最も困難な課題の1つである。本稿では,障害物回避,ナビゲーション,形成を管理するための低レベル政策を採用しながら,ローカライゼーションを高レベルポリシーに委譲する新しい2レベルフレームワークを提案する。高忠実度ソフトウェア・イン・ザ・ループ(SITL)シミュレーションを含む実験結果は、CI-HRLがSwarmの協調回避とタスク補完機能を強化した優れたソリューションを提供することを示す。
論文参考訳（メタデータ） (2025-06-22T18:23:58Z)
Confidence-Regulated Generative Diffusion Models for Reliable AI Agent Migration in Vehicular Metaverses [55.70043755630583]
車両用AIエージェントには、環境認識、意思決定、行動実行能力が与えられている。本稿では、信頼性の高い車両用AIエージェントマイグレーションフレームワークを提案し、信頼性の高い動的マイグレーションと効率的なリソーススケジューリングを実現する。我々は,AIエージェントのマイグレーション決定を効率的に生成する信頼性制御型生成拡散モデル(CGDM)を開発した。
論文参考訳（メタデータ） (2025-05-19T05:04:48Z)
A Multi-Agent Reinforcement Learning Approach for Cooperative Air-Ground-Human Crowdsensing in Emergency Rescue [22.201769922727077]
本稿では,ヒト,UAV,UGVを考慮し,不均一な協調作業割当問題に対処する。我々は,UGVが低電池UAVのチャージを優先し,検知タスクを遂行する,新しい「ハード・コラボレーティブ」政策を導入する。本稿では,分散実行アーキテクチャに基づく新しいマルチエージェント強化学習アルゴリズムであるHECTA4ERを提案する。
論文参考訳（メタデータ） (2025-05-11T14:49:15Z)
Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文参考訳（メタデータ） (2025-04-15T10:41:11Z)
Causal Mean Field Multi-Agent Reinforcement Learning [10.767740092703777]
平均場強化学習(MFRL)と呼ばれるフレームワークは、平均場理論を用いることでスケーラビリティの問題を軽減することができる。このフレームワークには、非定常環境下での本質的な相互作用を識別する能力がない。拡張性問題に対処するために,因果平均Q-ラーニング (CMFQ) と呼ばれるアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-20T02:15:58Z)
Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文参考訳（メタデータ） (2024-10-03T14:25:02Z)
Agent-Agnostic Centralized Training for Decentralized Multi-Agent Cooperative Driving [17.659812774579756]
本研究では,自律走行車における分散型協調運転ポリシーを学習する非対称アクター・批判モデルを提案する。マスキングを用いたアテンションニューラルネットワークを用いることで,実世界の交通動態と部分観測可能性の効率よく管理できる。
論文参考訳（メタデータ） (2024-03-18T16:13:02Z)
Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文参考訳（メタデータ） (2024-02-23T23:22:06Z)
SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文参考訳（メタデータ） (2023-12-31T04:14:43Z)
DePAint: A Decentralized Safe Multi-Agent Reinforcement Learning Algorithm considering Peak and Average Constraints [1.1549572298362787]
本稿では,この問題を解決するために,モーメントに基づく分散勾配法DePaintを提案する。これは、ピーク制約と平均制約の両方を考慮した、プライバシ保存で完全に分散化されたマルチエージェント強化学習アルゴリズムとしては初めてのものである。
論文参考訳（メタデータ） (2023-10-22T16:36:03Z)
A Multiplicative Value Function for Safe and Efficient Reinforcement Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文参考訳（メタデータ） (2023-03-07T18:29:15Z)
Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文参考訳（メタデータ） (2022-12-14T03:11:25Z)
ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文参考訳（メタデータ） (2021-09-14T16:18:35Z)
ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。 ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文参考訳（メタデータ） (2021-06-10T04:32:20Z)
Combining Propositional Logic Based Decision Diagrams with Decision Making in Urban Systems [10.781866671930851]
我々は不確実性と部分的可観測性を考慮したマルチエージェントパスフィンディングの課題に取り組む。我々は命題論理を用いて、RLの高速なシミュレーションを可能にするために、RLアルゴリズムとそれらを統合する。
論文参考訳（メタデータ） (2020-11-09T13:13:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。