論文の概要: ARBoids: Adaptive Residual Reinforcement Learning With Boids Model for Cooperative Multi-USV Target Defense
- arxiv url: http://arxiv.org/abs/2502.18549v2
- Date: Thu, 10 Jul 2025 05:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 18:48:43.563549
- Title: ARBoids: Adaptive Residual Reinforcement Learning With Boids Model for Cooperative Multi-USV Target Defense
- Title(参考訳): ARBoids:複数UV目標防衛のためのBoidsモデルを用いた適応的残留強化学習
- Authors: Jiyue Tao, Tongsheng Shen, Dexin Zhao, Feitian Zhang,
- Abstract要約: 本稿では,適応型強化学習フレームワークであるABBoidsを紹介する。
深層強化学習と、生物学的にインスパイアされた力に基づくBoidsモデルを統合する。
提案手法は高忠実度ガゼボシミュレーション環境で検証される。
- 参考スコア(独自算出の注目度): 0.918715978278858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The target defense problem (TDP) for unmanned surface vehicles (USVs) concerns intercepting an adversarial USV before it breaches a designated target region, using one or more defending USVs. A particularly challenging scenario arises when the attacker exhibits superior maneuverability compared to the defenders, significantly complicating effective interception. To tackle this challenge, this letter introduces ARBoids, a novel adaptive residual reinforcement learning framework that integrates deep reinforcement learning (DRL) with the biologically inspired, force-based Boids model. Within this framework, the Boids model serves as a computationally efficient baseline policy for multi-agent coordination, while DRL learns a residual policy to adaptively refine and optimize the defenders' actions. The proposed approach is validated in a high-fidelity Gazebo simulation environment, demonstrating superior performance over traditional interception strategies, including pure force-based approaches and vanilla DRL policies. Furthermore, the learned policy exhibits strong adaptability to attackers with diverse maneuverability profiles, highlighting its robustness and generalization capability. The code of ARBoids will be released upon acceptance of this letter.
- Abstract(参考訳): 無人表面車両(USV)の標的防衛問題(TDP)は、1つ以上の防衛用USVを使用して、指定された目標領域に侵入する前に敵のUSVを迎撃するものである。
特に困難なシナリオは、攻撃者がディフェンダーよりも優れた操作性を示し、効果的なインターセプションを著しく複雑にするときに発生する。
この課題に対処するため、本論文では、深部強化学習(DRL)と生物学的にインスパイアされた力に基づくボイドモデルを統合する適応強化学習フレームワークであるABBoidsを紹介する。
このフレームワーク内では、Boidsモデルはマルチエージェント協調のための計算効率の良いベースラインポリシーとして機能し、DRLはディフェンダーの行動を適応的に洗練し最適化するための残留ポリシーを学習する。
提案手法は高忠実なガゼボシミュレーション環境で検証され、純粋な力に基づくアプローチやバニラDRLポリシーを含む従来のインターセプション戦略よりも優れた性能を示す。
さらに、学習されたポリシーは、多彩な操作性プロファイルを持つ攻撃者に強い適応性を示し、その堅牢性と一般化能力を強調している。
ARBoidsのコードは、このレターを受理して公開される。
関連論文リスト
- Adapting to Evolving Adversaries with Regularized Continual Robust Training [47.93633573641843]
本稿では,各攻撃がモデルロジット空間のサンプルをどの程度乱すかによって,モデルが異なる攻撃に対する頑健さのギャップが限定されていることを示す理論的結果を示す。
われわれの発見とオープンソースコードは、進化する攻撃に対して堅牢なモデルの配備の基礎を築いた。
論文 参考訳(メタデータ) (2025-02-06T17:38:41Z) - Less is More: A Stealthy and Efficient Adversarial Attack Method for DRL-based Autonomous Driving Policies [2.9965913883475137]
DRLに基づく自律運転ポリシーに対するステルスで効率的な敵攻撃手法を提案する。
我々は、ドメイン知識のない重要な瞬間に攻撃するための最適なポリシーを学ぶために、敵を訓練する。
本手法は3回の攻撃で90%以上の衝突率を達成する。
論文 参考訳(メタデータ) (2024-12-04T06:11:09Z) - Sustainable Self-evolution Adversarial Training [51.25767996364584]
対戦型防衛モデルのための持続的自己進化支援訓練(SSEAT)フレームワークを提案する。
本研究は,様々な種類の対角的事例から学習を実現するために,連続的な対向防衛パイプラインを導入する。
また,より多様で重要な再学習データを選択するために,逆データ再生モジュールを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:41:11Z) - Towards Robust Policy: Enhancing Offline Reinforcement Learning with Adversarial Attacks and Defenses [19.918548094276005]
オフライン強化学習(RL)は、大量のオフラインデータに対する事前トレーニングポリシによって、RLに固有の高価でリスクの高いデータ探索の課題に対処する。
本稿では,先進的な敵攻撃と防御を活用して,オフラインRLモデルのロバスト性を高める枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-18T07:23:44Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Downlink Power Allocation in Massive MIMO via Deep Learning: Adversarial
Attacks and Training [62.77129284830945]
本稿では,無線環境における回帰問題を考察し,敵攻撃がDLベースのアプローチを損なう可能性があることを示す。
また,攻撃に対するDLベースの無線システムの堅牢性が著しく向上することを示す。
論文 参考訳(メタデータ) (2022-06-14T04:55:11Z) - Attacking and Defending Deep Reinforcement Learning Policies [3.6985039575807246]
本研究では, DRL ポリシーのロバストな最適化の観点から, 敵攻撃に対するロバスト性について検討する。
本稿では,環境との相互作用を伴わずにポリシーの戻りを最小化しようとする欲求攻撃アルゴリズムと,最大限の形式で敵の訓練を行う防衛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:47:54Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z) - Query-based Targeted Action-Space Adversarial Policies on Deep
Reinforcement Learning Agents [23.580682320064714]
本研究は、CPS文学における行動空間領域における標的攻撃(アクティベーション攻撃)を調査する。
対向目標に対する最適な摂動を生成するクエリベースのブラックボックス攻撃モデルが、別の強化学習問題として定式化可能であることを示す。
実験の結果,名目政策のアウトプットのみを観察する敵政策は,名目政策のインプットとアウトプットを観察する敵政策よりも強い攻撃を発生させることがわかった。
論文 参考訳(メタデータ) (2020-11-13T20:25:48Z) - Adversarial jamming attacks and defense strategies via adaptive deep
reinforcement learning [12.11027948206573]
本稿では、DRLベースの動的チャネルアクセスを行う被害者ユーザと、DRLベースの妨害攻撃を実行して被害者を妨害する攻撃者について考察する。
被害者も攻撃者もDRLエージェントであり、互いに相互作用し、モデルを再訓練し、相手の方針に適応することができる。
攻撃された被害者の精度を最大化し,その性能を評価するための3つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2020-07-12T18:16:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。