論文の概要: Curriculum-Guided Antifragile Reinforcement Learning for Secure UAV Deconfliction under Observation-Space Attacks
- arxiv url: http://arxiv.org/abs/2506.21129v1
- Date: Thu, 26 Jun 2025 10:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.044498
- Title: Curriculum-Guided Antifragile Reinforcement Learning for Secure UAV Deconfliction under Observation-Space Attacks
- Title(参考訳): 観測空間攻撃下でのセキュアなUAV分解のためのカリキュラム誘導型アンチフラジオール強化学習
- Authors: Deepak Kumar Panda, Adolfo Perrusquia, Weisi Guo,
- Abstract要約: 強化学習政策は、観測空間における敵の攻撃に対して脆弱である。
本稿では,段階的対向摂動のカリキュラムに適応するために設計された反フレジブルなRLフレームワークを提案する。
その結果, 反フランジ政策は標準およびロバストなRLベースラインよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 6.367978467906828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) policies deployed in safety-critical systems, such as unmanned aerial vehicle (UAV) navigation in dynamic airspace, are vulnerable to out-ofdistribution (OOD) adversarial attacks in the observation space. These attacks induce distributional shifts that significantly degrade value estimation, leading to unsafe or suboptimal decision making rendering the existing policy fragile. To address this vulnerability, we propose an antifragile RL framework designed to adapt against curriculum of incremental adversarial perturbations. The framework introduces a simulated attacker which incrementally increases the strength of observation-space perturbations which enables the RL agent to adapt and generalize across a wider range of OOD observations and anticipate previously unseen attacks. We begin with a theoretical characterization of fragility, formally defining catastrophic forgetting as a monotonic divergence in value function distributions with increasing perturbation strength. Building on this, we define antifragility as the boundedness of such value shifts and derive adaptation conditions under which forgetting is stabilized. Our method enforces these bounds through iterative expert-guided critic alignment using Wasserstein distance minimization across incrementally perturbed observations. We empirically evaluate the approach in a UAV deconfliction scenario involving dynamic 3D obstacles. Results show that the antifragile policy consistently outperforms standard and robust RL baselines when subjected to both projected gradient descent (PGD) and GPS spoofing attacks, achieving up to 15% higher cumulative reward and over 30% fewer conflict events. These findings demonstrate the practical and theoretical viability of antifragile reinforcement learning for secure and resilient decision-making in environments with evolving threat scenarios.
- Abstract(参考訳): 動的空域における無人航空機(UAV)航法のような安全クリティカルなシステムに展開される強化学習(RL)ポリシーは、観測空間におけるアウト・オブ・ディストリビューション(OOD)敵攻撃に対して脆弱である。
これらの攻撃は、価値推定を著しく低下させる分散シフトを誘発し、既存のポリシーが脆弱であるように、安全でないまたは最適でない決定を下す。
この脆弱性に対処するために,漸進的対向的摂動のカリキュラムに適応するために設計された反脆弱なRLフレームワークを提案する。
このフレームワークは、観測空間の摂動の強度を漸進的に増加させ、RLエージェントがより広い範囲のOOD観測に適応し、一般化し、これまで見つからなかった攻撃を予測できるようにするシミュレートされたアタッカーを導入している。
まず, 不安定性の理論的特徴から, 摂動強度を増大させた値関数分布の単調な分散として, 破滅的忘れを正式に定義する。
これに基づいて、このような値シフトの有界性として反脆弱性を定義し、忘れることが安定する適応条件を導出する。
本手法は, 逐次摂動観測におけるワッサーシュタイン距離最小化を用いた反復的専門家誘導批評家アライメントにより, これらの境界を強制する。
動的3次元障害物を含むUAV分解シナリオにおけるアプローチを実験的に評価した。
以上の結果から,プロジェクテッド勾配降下(PGD)とGPSスプーフィング攻撃の双方に照準を合わせ,最大15%の累積報酬を達成し,紛争事象の30%以上を減らし,標準的かつロバストなRLベースラインを一貫して上回っていることが明らかとなった。
これらの知見は, 脅威シナリオが進化する環境における安全かつ弾力的な意思決定のための, 反脆弱強化学習の実践的および理論的可能性を示すものである。
関連論文リスト
- Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments [6.956559003734227]
無人航空機(UAV)は、強化学習(RL)の脆弱性を利用する敵の攻撃にさらされている。
本稿では,より広範な分布シフトへの適応性を高めるための反フレジブルRLフレームワークを提案する。
より優れた性能を発揮し、短い航法路の長さと衝突のない航法軌道の速度を示す。
論文 参考訳(メタデータ) (2025-06-26T10:06:29Z) - Towards Robust Deep Reinforcement Learning against Environmental State Perturbation [13.811628977069029]
深層強化学習(DRL)における敵対的攻撃と堅牢性は、様々な脅威モデルにおいて広く研究されている。
本研究では, キャリブレーション対策として, 非標的攻撃方式を導入し, 環境変動の問題を定式化する。
そこで我々は,破滅的な失敗を避けるため,まず指導的学習を通じてエージェントを調整し,その後,強化学習でエージェントを逆さまに訓練する防衛フレームワーク,Boosted Adversarial Training (BAT)を提案する。
論文 参考訳(メタデータ) (2025-06-10T16:32:31Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - On Minimizing Adversarial Counterfactual Error in Adversarial RL [18.044879441434432]
敵の騒音は、安全クリティカルなシナリオにおいて重大なリスクを生じさせる。
我々は,ACoE(Adversarial Counterfactual Error)と呼ばれる新しい目標を導入する。
本手法は, 対向RL問題に対処するための最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-07T08:14:24Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Ada3Diff: Defending against 3D Adversarial Point Clouds via Adaptive
Diffusion [70.60038549155485]
ディープ3Dポイントクラウドモデルは敵攻撃に敏感であり、自律運転のような安全クリティカルなアプリケーションに脅威をもたらす。
本稿では,適応強度推定器と拡散モデルを用いて,プリスタンデータ分布を再構築できる新しい歪み認識型防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-29T14:32:43Z) - Understanding Adversarial Attacks on Observations in Deep Reinforcement
Learning [32.12283927682007]
深層強化学習モデルは、観測を操作することで被害者の総報酬を減少させる敵攻撃に対して脆弱である。
関数空間における逆攻撃の問題を修正し、以前の勾配に基づく攻撃をいくつかの部分空間に分割する。
第一段階では、環境をハックして偽装ポリシーを訓練し、最下位の報酬にルーティングするトラジェクトリのセットを発見する。
本手法は,攻撃エージェントの性能に対して,既存の手法よりも厳密な理論上界を提供する。
論文 参考訳(メタデータ) (2021-06-30T07:41:51Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。