論文の概要: Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments
- arxiv url: http://arxiv.org/abs/2506.21127v1
- Date: Thu, 26 Jun 2025 10:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.04353
- Title: Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments
- Title(参考訳): 対人環境におけるUAV分解のための反脆弱強化学習のためのロバストポリシースイッチング
- Authors: Deepak Kumar Panda, Weisi Guo,
- Abstract要約: 無人航空機(UAV)は、強化学習(RL)の脆弱性を利用する敵の攻撃にさらされている。
本稿では,より広範な分布シフトへの適応性を高めるための反フレジブルRLフレームワークを提案する。
より優れた性能を発揮し、短い航法路の長さと衝突のない航法軌道の速度を示す。
- 参考スコア(独自算出の注目度): 6.956559003734227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing automation of navigation for unmanned aerial vehicles (UAVs) has exposed them to adversarial attacks that exploit vulnerabilities in reinforcement learning (RL) through sensor manipulation. Although existing robust RL methods aim to mitigate such threats, their effectiveness has limited generalization to out-of-distribution shifts from the optimal value distribution, as they are primarily designed to handle fixed perturbation. To address this limitation, this paper introduces an antifragile RL framework that enhances adaptability to broader distributional shifts by incorporating a switching mechanism based on discounted Thompson sampling (DTS). This mechanism dynamically selects among multiple robust policies to minimize adversarially induced state-action-value distribution shifts. The proposed approach first derives a diverse ensemble of action robust policies by accounting for a range of perturbations in the policy space. These policies are then modeled as a multiarmed bandit (MAB) problem, where DTS optimally selects policies in response to nonstationary Bernoulli rewards, effectively adapting to evolving adversarial strategies. Theoretical framework has also been provided where by optimizing the DTS to minimize the overall regrets due to distributional shift, results in effective adaptation against unseen adversarial attacks thus inducing antifragility. Extensive numerical simulations validate the effectiveness of the proposed framework in complex navigation environments with multiple dynamic three-dimensional obstacles and with stronger projected gradient descent (PGD) and spoofing attacks. Compared to conventional robust, non-adaptive RL methods, the antifragile approach achieves superior performance, demonstrating shorter navigation path lengths and a higher rate of conflict-free navigation trajectories compared to existing robust RL techniques
- Abstract(参考訳): 無人航空機(UAV)のナビゲーションの自動化は、センサー操作を通じて強化学習(RL)の脆弱性を利用する敵の攻撃にさらされている。
既存のロバストなRL法はこのような脅威を軽減することを目的としているが、その効果は、主に固定摂動を扱うように設計されているため、最適な値分布から分布外シフトに制限される。
この制限に対処するために,ディスカウントトンプソンサンプリング(DTS)に基づくスイッチング機構を組み込むことで,より広範な分散シフトへの適応性を向上するアンチフランジRLフレームワークを提案する。
このメカニズムは、複数のロバストなポリシーの中から動的に選択し、敵対的に誘導される状態-作用-値分布シフトを最小限に抑える。
提案手法は、まず、政策分野における様々な摂動を考慮し、多様なアクション・ロバスト・ポリシーのアンサンブルを導出する。
これらのポリシーはマルチアーム・バンディット(MAB)問題としてモデル化され、DTSは非定常ベルヌーイの報酬に応じてポリシーを最適に選択し、敵の戦略の進化に効果的に適応する。
また、DTSを最適化することで、分散シフトによる全体的な後悔を最小限に抑えることで、目に見えない敵攻撃に対して効果的に適応し、反脆弱を誘発する理論的な枠組みも提供されてきた。
複数の動的3次元障害物とより強力な勾配降下(PGD)とスプーフィング攻撃を持つ複雑な航法環境において,提案手法の有効性を広範囲に数値シミュレーションにより検証した。
従来のロバストで非適応なRL法と比較して、アンチフラジオール法は、既存のロバストなRL法と比較して、ナビゲーションパス長が短く、無競合なナビゲーショントラジェクトリの速度が高いことを証明し、優れた性能を達成する。
関連論文リスト
- Curriculum-Guided Antifragile Reinforcement Learning for Secure UAV Deconfliction under Observation-Space Attacks [6.367978467906828]
強化学習政策は、観測空間における敵の攻撃に対して脆弱である。
本稿では,段階的対向摂動のカリキュラムに適応するために設計された反フレジブルなRLフレームワークを提案する。
その結果, 反フランジ政策は標準およびロバストなRLベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-06-26T10:10:41Z) - Robust Deep Reinforcement Learning in Robotics via Adaptive Gradient-Masked Adversarial Attacks [15.825229211045647]
本稿では、DRLとグラデーションベースのソフトマスキング機構を組み合わせたホワイトボックス攻撃手法であるAGMRアタックを提案し、臨界状態次元を動的に識別し、敵のポリシーを最適化する。
AGMRは、被害者エージェントのパフォーマンスを低下させ、敵防御機構を通じて被害者エージェントの堅牢性を高める、最先端の敵攻撃方法より優れる。
論文 参考訳(メタデータ) (2025-03-26T15:08:58Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Distributionally Robust Multi-Agent Reinforcement Learning for Dynamic Chute Mapping [12.78977546421283]
Amazonのロボット倉庫では、行き先とシュートをマッピングする問題は、効率的なパッケージソートに不可欠である。
本稿では,誘導率の逆方向変動に耐性のある宛先間マッピングポリシを学習する,分散ロバストなマルチエージェント強化学習フレームワークを提案する。
DRMARLは,様々な誘導分布が存在する場合の堅牢なシュートマッピングを実現し,シミュレーションシナリオにおけるパッケージ再循環を平均80%低減することを示す。
論文 参考訳(メタデータ) (2025-03-12T18:56:25Z) - Rethinking Adversarial Attacks in Reinforcement Learning from Policy Distribution Perspective [17.812046299904576]
DAPGD(Dis Distribution-Aware Projected Gradient Descent attack)を提案する。
DAPGDは、ポリシーネットワークを攻撃するために勾配摂動入力として分布類似性を使用する。
実験の結果,DAPGDは3つのロボットナビゲーションタスクのベースラインと比較してSOTAを達成できた。
論文 参考訳(メタデータ) (2025-01-07T06:22:55Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Beyond Reverse KL: Generalizing Direct Preference Optimization with
Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。
RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。
DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。
Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文 参考訳(メタデータ) (2023-09-28T08:29:44Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。