論文の概要: Robust Multi-Agent Reinforcement Learning for Small UAS Separation Assurance under GPS Degradation and Spoofing
- arxiv url: http://arxiv.org/abs/2603.28900v1
- Date: Mon, 30 Mar 2026 18:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.661124
- Title: Robust Multi-Agent Reinforcement Learning for Small UAS Separation Assurance under GPS Degradation and Spoofing
- Title(参考訳): GPS劣化とスポーフィングによる小型UAS分離保証のためのロバストマルチエージェント強化学習
- Authors: Alex Zongo, Filippos Fotiadis, Ufuk Topcu, Peng Wei,
- Abstract要約: 小型無人航空機システム(sUAS)のGPS劣化とスプーフィング下でのロバストな分離保証について検討する。
この式は,2次精度で,真に最悪の逆方向の摂動を近似することを示す。
高密度sUASシミュレーションでは, 破壊レベルが最大35%に達するとほぼゼロに近い衝突速度が観測され, 対向的摂動を伴わない基本方針よりも優れていた。
- 参考スコア(独自算出の注目度): 21.870113057418447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address robust separation assurance for small Unmanned Aircraft Systems (sUAS) under GPS degradation and spoofing via Multi-Agent Reinforcement Learning (MARL). In cooperative surveillance, each aircraft (or agent) broadcasts its GPS-derived position; when such position broadcasts are corrupted, the entire observed air traffic state becomes unreliable. We cast this state observation corruption as a zero-sum game between the agents and an adversary: with probability R, the adversary perturbs the observed state to maximally degrade each agent's safety performance. We derive a closed-form expression for this adversarial perturbation, bypassing adversarial training entirely and enabling linear-time evaluation in the state dimension. We show that this expression approximates the true worst-case adversarial perturbation with second-order accuracy. We further bound the safety performance gap between clean and corrupted observations, showing that it degrades at most linearly with the corruption probability under Kullback-Leibler regularization. Finally, we integrate the closed-form adversarial policy into a MARL policy gradient algorithm to obtain a robust counter-policy for the agents. In a high-density sUAS simulation, we observe near-zero collision rates under corruption levels up to 35%, outperforming a baseline policy trained without adversarial perturbations.
- Abstract(参考訳): マルチエージェント強化学習(MARL)によるGPS劣化およびスプーフィング下での小型無人航空機システム(sUAS)のロバストな分離保証について検討する。
協調監視では、各航空機(またはエージェント)がそのGPSに由来する位置を放送し、そのような位置放送が破損すると、観測された航空交通状態全体が信頼できないようになる。
我々は、この状態の観察腐敗を、エージェントと敵のゼロサムゲームとして、確率Rで、各エージェントの安全性能を最大に劣化させるように、観測状態を摂動させる。
本研究では, 対向的摂動に対する閉形式表現を導き, 対向的トレーニングを完全に回避し, 状態次元の線形時間評価を可能にする。
この式は,2次精度で,真に最悪の逆方向の摂動を近似することを示す。
さらに, クロールバック・リーブラー正則化の下では, 汚損確率とほぼ直線的に劣化することを示す。
最後に,MARLポリシー勾配アルゴリズムに閉形式対応ポリシーを組み込むことにより,エージェントに対する堅牢な対政を実現する。
高密度sUASシミュレーションでは, 破壊レベルが最大35%に達するとほぼゼロに近い衝突速度が観測され, 対向的摂動を伴わない基本方針よりも優れていた。
関連論文リスト
- AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents [2.995458991057093]
クリーンで汚染されたツール出力条件下で、実際の財務対話を再生するペアトラジェクトリプロトコルを導入する。
評価盲点パターンを観察し, 推奨品質は汚染下で保存される。
物語のみの腐敗(バイアス付き見出し、数値操作なし)でさえ、一貫性モニタを完全に回避しながら大きなドリフトを引き起こします。
論文 参考訳(メタデータ) (2026-03-13T01:54:00Z) - Sparse Threats, Focused Defense: Criticality-Aware Robust Reinforcement Learning for Safe Autonomous Driving [11.62520853262219]
本稿では、自律運転におけるスパースかつ安全クリティカルなリスクに対処するために、臨界対応ロバストRL(CARRL)を導入する。
CARRLは2つの相互作用成分からなる: リスク露光敵 (REA) とリスクターゲット型ロバストエージェント (RTRA) である。
提案手法は,最先端のベースライン法と比較して,全症例で少なくとも22.66%の衝突率を減少させることを示す。
論文 参考訳(メタデータ) (2026-01-05T05:20:16Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - Curriculum-Guided Antifragile Reinforcement Learning for Secure UAV Deconfliction under Observation-Space Attacks [6.367978467906828]
強化学習政策は、観測空間における敵の攻撃に対して脆弱である。
本稿では,段階的対向摂動のカリキュラムに適応するために設計された反フレジブルなRLフレームワークを提案する。
その結果, 反フランジ政策は標準およびロバストなRLベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-06-26T10:10:41Z) - GCP: Guarded Collaborative Perception with Spatial-Temporal Aware Malicious Agent Detection [11.336965062177722]
協調的知覚は、悪意のあるエージェントからの敵対的なメッセージ攻撃に対して脆弱である。
本稿では,既存の単発外乱検出手法を損なう新しい盲検領域混乱(BAC)攻撃を明らかにする。
本稿では、空間的時間的認識による悪意のあるエージェント検出に基づくガード付き協調認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-05T06:03:26Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。