論文の概要: Near-Optimal Multi-Agent Learning for Safe Coverage Control
- arxiv url: http://arxiv.org/abs/2210.06380v1
- Date: Wed, 12 Oct 2022 16:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:54:07.234766
- Title: Near-Optimal Multi-Agent Learning for Safe Coverage Control
- Title(参考訳): 安全カバレッジ制御のための近最適マルチエージェント学習
- Authors: Manish Prajapat, Matteo Turchetta, Melanie N. Zeilinger, Andreas
Krause
- Abstract要約: マルチエージェントのカバレッジ制御問題では、エージェントは環境をナビゲートして、ある密度のカバレッジを最大化する位置に到達する。
本稿では,エージェントの安全性を保ちながら,その密度を効率よく学習し,カバレッジ問題を概ね解決することを目的とする。
まず、安全を確実に保証しながら、有限時間で最適範囲に近づいた結果を挙げる。
- 参考スコア(独自算出の注目度): 76.99020416197631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-agent coverage control problems, agents navigate their environment
to reach locations that maximize the coverage of some density. In practice, the
density is rarely known $\textit{a priori}$, further complicating the original
NP-hard problem. Moreover, in many applications, agents cannot visit arbitrary
locations due to $\textit{a priori}$ unknown safety constraints. In this paper,
we aim to efficiently learn the density to approximately solve the coverage
problem while preserving the agents' safety. We first propose a conditionally
linear submodular coverage function that facilitates theoretical analysis.
Utilizing this structure, we develop MacOpt, a novel algorithm that efficiently
trades off the exploration-exploitation dilemma due to partial observability,
and show that it achieves sublinear regret. Next, we extend results on
single-agent safe exploration to our multi-agent setting and propose SafeMac
for safe coverage and exploration. We analyze SafeMac and give first of its
kind results: near optimal coverage in finite time while provably guaranteeing
safety. We extensively evaluate our algorithms on synthetic and real problems,
including a bio-diversity monitoring task under safety constraints, where
SafeMac outperforms competing methods.
- Abstract(参考訳): マルチエージェントのカバレッジ制御問題では、エージェントは環境をナビゲートして、ある密度のカバレッジを最大化する位置に到達する。
実際には、密度が $\textit{a priori}$ であることは稀であり、元のNPハード問題をさらに複雑にしている。
さらに、多くのアプリケーションでは、$\textit{a priori}$未知の安全性制約のため、エージェントは任意の場所を訪問できない。
本稿では,エージェントの安全性を保ちながら,その密度を効率よく学習し,カバレッジ問題を概ね解決することを目的とする。
まず,理論解析を容易にする条件線形部分モジュラー被覆関数を提案する。
この構造を利用して,部分観測可能性により探索・探索ジレンマを効率よく除去する新しいアルゴリズムであるMacOptを開発し,サブ線形後悔を実現することを示す。
次に,単一エージェントセーフエクスプロレーションの結果をマルチエージェント設定に拡張し,安全カバレッジと探索のためのsafemacを提案する。
SafeMacを解析し、安全性を確実に保証しながら、有限時間で最適範囲に近づきます。
我々は,安全制約下での生物多様性モニタリングタスクを含む,合成および実問題に関するアルゴリズムを広範囲に評価した。
関連論文リスト
- Safe Exploration in Reinforcement Learning: A Generalized Formulation
and Algorithms [8.789204441461678]
本稿では,安全な探査のためのメタアルゴリズムであるMASEの形で,安全な探査(GSE)問題の解を提案する。
提案アルゴリズムは,グリッドワールドおよびセーフティガイムベンチマークにおける最先端アルゴリズムよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-10-05T00:47:09Z) - Provably Learning Nash Policies in Constrained Markov Potential Games [90.87573337770293]
マルチエージェント強化学習(MARL)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。
制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な定式化である。
論文 参考訳(メタデータ) (2023-06-13T13:08:31Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Policy Optimization with Local Generalized Linear Function
Approximations [17.84511819022308]
既存の安全探査法は、規則性の前提で安全を保証した。
本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。
提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T00:47:50Z) - Learning to Act Safely with Limited Exposure and Almost Sure Certainty [1.0323063834827415]
本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-05-18T18:05:12Z) - Learning to be safe, in finite time [4.189643331553922]
本稿では,未知の環境での安全な行動の学習を,確率が保証されても,無拘束の探索試験を必要とせずに実現できるという考えを提唱する。
我々は、標準的マルチアームバンディット問題に焦点をあて、安全学習における探索保存トレードオフの本質的な研究を模索する。
論文 参考訳(メタデータ) (2020-10-01T14:03:34Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。