論文の概要: Collision Avoidance Verification of Multiagent Systems with Learned
Policies
- arxiv url: http://arxiv.org/abs/2403.03314v1
- Date: Tue, 5 Mar 2024 20:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:56:17.005678
- Title: Collision Avoidance Verification of Multiagent Systems with Learned
Policies
- Title(参考訳): 学習方針を有するマルチエージェントシステムの衝突回避検証
- Authors: Zihao Dong, Shayegan Omidshafiei, Michael Everett
- Abstract要約: 本稿では,Multi-Agent Neural Feedback Loops (MA-NFLs) の衝突回避特性を検証するための後方到達性に基づくアプローチを提案する。
提案アルゴリズムは,各エージェントの動的モデルと訓練された制御ポリシを考慮し,各エージェントに対して一連の混合線形プログラム(MILP)をオフラインで解くことで,相対的なバックプロジェクションセットを計算する。
提案アルゴリズムは,MA-NFLの衝突回避アルゴリズムを模倣するエージェントを用いて,衝突回避特性を検証できることを示す。
- 参考スコア(独自算出の注目度): 10.733918424740693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For many multiagent control problems, neural networks (NNs) have enabled
promising new capabilities. However, many of these systems lack formal
guarantees (e.g., collision avoidance, robustness), which prevents leveraging
these advances in safety-critical settings. While there is recent work on
formal verification of NN-controlled systems, most existing techniques cannot
handle scenarios with more than one agent. To address this research gap, this
paper presents a backward reachability-based approach for verifying the
collision avoidance properties of Multi-Agent Neural Feedback Loops (MA-NFLs).
Given the dynamics models and trained control policies of each agent, the
proposed algorithm computes relative backprojection sets by solving a series of
Mixed Integer Linear Programs (MILPs) offline for each pair of agents. Our
pair-wise approach is parallelizable and thus scales well with increasing
number of agents, and we account for state measurement uncertainties, making it
well aligned with real-world scenarios. Using those results, the agents can
quickly check for collision avoidance online by solving low-dimensional Linear
Programs (LPs). We demonstrate the proposed algorithm can verify collision-free
properties of a MA-NFL with agents trained to imitate a collision avoidance
algorithm (Reciprocal Velocity Obstacles). We further demonstrate the
computational scalability of the approach on systems with up to 10 agents.
- Abstract(参考訳): 多くのマルチエージェント制御問題に対して、ニューラルネットワーク(NN)は有望な新機能を実現している。
しかし、これらのシステムの多くは正式な保証(衝突回避、堅牢性など)を欠いているため、安全上重要な設定でこれらの進歩を活用できない。
近年,NN制御システムの形式検証が試みられているが,既存の手法の多くは複数のエージェントでシナリオを処理できない。
そこで本研究では,マルチエージェントニューラルネットワークループ(MA-NFL)の衝突回避特性を検証するために,後方到達性に基づくアプローチを提案する。
提案アルゴリズムは,各エージェントの動的モデルと訓練された制御ポリシを考慮し,各エージェントに対して一連の混合整数線形プログラム(MILP)をオフラインで解くことで,相対的なバックプロジェクションセットを計算する。
ペアワイズアプローチは並列化可能であり,エージェント数の増加と相性が良好であり,状態測定の不確実性も考慮し,現実のシナリオとよく一致しています。
これらの結果を用いて、エージェントは低次元線形プログラム(LP)を解くことで、オンラインで衝突回避を迅速にチェックできる。
本研究では,ma-nflの衝突回避アルゴリズム(逆速度障害物)を模倣するように訓練したエージェントによる衝突回避特性の検証を行う。
さらに,最大10エージェントのシステムに対するアプローチの計算スケーラビリティを実証する。
関連論文リスト
- Variational Autoencoders for exteroceptive perception in reinforcement learning-based collision avoidance [0.0]
Deep Reinforcement Learning (DRL) は有望な制御フレームワークとして登場した。
現在のDRLアルゴリズムは、ほぼ最適ポリシーを見つけるために不均等な計算資源を必要とする。
本稿では,海洋制御システムにおける提案手法の総合的な探索について述べる。
論文 参考訳(メタデータ) (2024-03-31T09:25:28Z) - Scalable Mechanism Design for Multi-Agent Path Finding [87.40027406028425]
MAPF (Multi-Agent Path Finding) は、複数のエージェントが同時に移動し、与えられた目標地点に向かって共有領域を通って衝突しない経路を決定する。
最適解を見つけることは、しばしば計算不可能であり、近似的な準最適アルゴリズムを用いることが不可欠である。
本稿では、MAPFのスケーラブルな機構設計の問題を紹介し、MAPFアルゴリズムを近似した3つの戦略防御機構を提案する。
論文 参考訳(メタデータ) (2024-01-30T14:26:04Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - A Minimax Approach Against Multi-Armed Adversarial Attacks Detection [31.971443221041174]
多武装の敵攻撃は、最先端の検出器を騙すことに成功している。
本稿では,複数の事前学習型検出器のソフト・確率出力をミニマックス・アプローチで集約する手法を提案する。
我々は,アグリゲーションが,多腕対人攻撃に対する個々の最先端検出器より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-04T18:21:22Z) - Scalable Task-Driven Robotic Swarm Control via Collision Avoidance and
Learning Mean-Field Control [23.494528616672024]
我々は、最先端平均場制御技術を用いて、多くのエージェントSwarm制御を分散の古典的な単一エージェント制御に変換する。
そこで我々は,衝突回避と平均場制御の学習を,知的ロボット群動作を牽引的に設計するための統一的な枠組みに統合する。
論文 参考訳(メタデータ) (2022-09-15T16:15:04Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Increasing the Confidence of Deep Neural Networks by Coverage Analysis [71.57324258813674]
本稿では、異なる安全でない入力に対してモデルを強化するために、カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。
実験結果から,提案手法は強力な対向例とアウト・オブ・ディストリビューション・インプットの両方を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2021-01-28T16:38:26Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Global Optimization of Objective Functions Represented by ReLU Networks [77.55969359556032]
ニューラルネットワークは複雑で非敵対的な関数を学ぶことができ、安全クリティカルな文脈でそれらの正しい振る舞いを保証することは困難である。
ネットワーク内の障害を見つけるための多くのアプローチ(例えば、敵の例)があるが、これらは障害の欠如を保証できない。
本稿では,最適化プロセスを検証手順に統合し,本手法よりも優れた性能を実現する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T08:19:48Z) - Certifiable Robustness to Adversarial State Uncertainty in Deep
Reinforcement Learning [40.989393438716476]
ディープニューラルネットワークベースのシステムは、現在では多くのロボティクスタスクにおいて最先端のシステムとなっているが、ネットワークの堅牢性に関する公式な保証なしに、安全クリティカルドメインへの適用は危険なままである。
センサー入力に対する小さな摂動は、しばしばネットワークベースの決定を変えるのに十分である。
この研究は、認証された敵対的ロバスト性の研究を活用して、深い強化学習アルゴリズムのためのオンラインロバストを開発する。
論文 参考訳(メタデータ) (2020-04-11T21:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。