論文の概要: ARBoids: Adaptive Residual Reinforcement Learning With Boids Model for Cooperative Multi-USV Target Defense
- arxiv url: http://arxiv.org/abs/2502.18549v2
- Date: Thu, 10 Jul 2025 05:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 18:48:43.563549
- Title: ARBoids: Adaptive Residual Reinforcement Learning With Boids Model for Cooperative Multi-USV Target Defense
- Title(参考訳): ARBoids:複数UV目標防衛のためのBoidsモデルを用いた適応的残留強化学習
- Authors: Jiyue Tao, Tongsheng Shen, Dexin Zhao, Feitian Zhang,
- Abstract要約: 本稿では,適応型強化学習フレームワークであるABBoidsを紹介する。
深層強化学習と、生物学的にインスパイアされた力に基づくBoidsモデルを統合する。
提案手法は高忠実度ガゼボシミュレーション環境で検証される。
- 参考スコア(独自算出の注目度): 0.918715978278858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The target defense problem (TDP) for unmanned surface vehicles (USVs) concerns intercepting an adversarial USV before it breaches a designated target region, using one or more defending USVs. A particularly challenging scenario arises when the attacker exhibits superior maneuverability compared to the defenders, significantly complicating effective interception. To tackle this challenge, this letter introduces ARBoids, a novel adaptive residual reinforcement learning framework that integrates deep reinforcement learning (DRL) with the biologically inspired, force-based Boids model. Within this framework, the Boids model serves as a computationally efficient baseline policy for multi-agent coordination, while DRL learns a residual policy to adaptively refine and optimize the defenders' actions. The proposed approach is validated in a high-fidelity Gazebo simulation environment, demonstrating superior performance over traditional interception strategies, including pure force-based approaches and vanilla DRL policies. Furthermore, the learned policy exhibits strong adaptability to attackers with diverse maneuverability profiles, highlighting its robustness and generalization capability. The code of ARBoids will be released upon acceptance of this letter.
- Abstract(参考訳): 無人表面車両(USV)の標的防衛問題(TDP)は、1つ以上の防衛用USVを使用して、指定された目標領域に侵入する前に敵のUSVを迎撃するものである。
特に困難なシナリオは、攻撃者がディフェンダーよりも優れた操作性を示し、効果的なインターセプションを著しく複雑にするときに発生する。
この課題に対処するため、本論文では、深部強化学習(DRL)と生物学的にインスパイアされた力に基づくボイドモデルを統合する適応強化学習フレームワークであるABBoidsを紹介する。
このフレームワーク内では、Boidsモデルはマルチエージェント協調のための計算効率の良いベースラインポリシーとして機能し、DRLはディフェンダーの行動を適応的に洗練し最適化するための残留ポリシーを学習する。
提案手法は高忠実なガゼボシミュレーション環境で検証され、純粋な力に基づくアプローチやバニラDRLポリシーを含む従来のインターセプション戦略よりも優れた性能を示す。
さらに、学習されたポリシーは、多彩な操作性プロファイルを持つ攻撃者に強い適応性を示し、その堅牢性と一般化能力を強調している。
ARBoidsのコードは、このレターを受理して公開される。
関連論文リスト
- Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [56.47577824219207]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。
本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。
エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。
我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文 参考訳(メタデータ) (2025-08-01T13:55:39Z) - Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments [6.956559003734227]
無人航空機(UAV)は、強化学習(RL)の脆弱性を利用する敵の攻撃にさらされている。
本稿では,より広範な分布シフトへの適応性を高めるための反フレジブルRLフレームワークを提案する。
より優れた性能を発揮し、短い航法路の長さと衝突のない航法軌道の速度を示す。
論文 参考訳(メタデータ) (2025-06-26T10:06:29Z) - Improving Large Language Model Safety with Contrastive Representation Learning [92.79965952162298]
大規模言語モデル(LLM)は、社会に深い影響を与える強力なツールである。
多様な制御されていない入力に対する応答を生成する能力は、敵の攻撃に対して脆弱である。
対照的な表現学習問題としてモデルディフェンスを定式化するディフェンスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T16:42:09Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Optimal Actuator Attacks on Autonomous Vehicles Using Reinforcement Learning [11.836584342902492]
AVアクチュエータに対する最適なステルス完全性攻撃を設計するための強化学習(RL)に基づくアプローチを提案する。
また、このような攻撃に対処するために、最先端のRLベースのセキュアコントローラの限界を分析する。
論文 参考訳(メタデータ) (2025-02-11T03:01:05Z) - Adapting to Evolving Adversaries with Regularized Continual Robust Training [47.93633573641843]
本稿では,各攻撃がモデルロジット空間のサンプルをどの程度乱すかによって,モデルが異なる攻撃に対する頑健さのギャップが限定されていることを示す理論的結果を示す。
われわれの発見とオープンソースコードは、進化する攻撃に対して堅牢なモデルの配備の基礎を築いた。
論文 参考訳(メタデータ) (2025-02-06T17:38:41Z) - Less is More: A Stealthy and Efficient Adversarial Attack Method for DRL-based Autonomous Driving Policies [2.9965913883475137]
DRLに基づく自律運転ポリシーに対するステルスで効率的な敵攻撃手法を提案する。
我々は、ドメイン知識のない重要な瞬間に攻撃するための最適なポリシーを学ぶために、敵を訓練する。
本手法は3回の攻撃で90%以上の衝突率を達成する。
論文 参考訳(メタデータ) (2024-12-04T06:11:09Z) - Sustainable Self-evolution Adversarial Training [51.25767996364584]
対戦型防衛モデルのための持続的自己進化支援訓練(SSEAT)フレームワークを提案する。
本研究は,様々な種類の対角的事例から学習を実現するために,連続的な対向防衛パイプラインを導入する。
また,より多様で重要な再学習データを選択するために,逆データ再生モジュールを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:41:11Z) - Online Planning for Multi-UAV Pursuit-Evasion in Unknown Environments Using Deep Reinforcement Learning [16.676389371667284]
マルチUAV追跡回避は、UAV群知能にとって重要な課題である。
本研究では,協調戦略学習における部分的可観測性に対処するために,回避者予測強化ネットワークを導入する。
我々は、2段階の報酬改善を通じて実現可能な政策を導出し、ゼロショット方式で実四重項にポリシーを展開する。
論文 参考訳(メタデータ) (2024-09-24T08:40:04Z) - Towards Robust Policy: Enhancing Offline Reinforcement Learning with Adversarial Attacks and Defenses [19.918548094276005]
オフライン強化学習(RL)は、大量のオフラインデータに対する事前トレーニングポリシによって、RLに固有の高価でリスクの高いデータ探索の課題に対処する。
本稿では,先進的な敵攻撃と防御を活用して,オフラインRLモデルのロバスト性を高める枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-18T07:23:44Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - The Adaptive Arms Race: Redefining Robustness in AI Security [21.759075171536388]
我々は,ブラックボックス攻撃と防御を適応的に最適化するフレームワークを,彼らが形成する競争ゲームの下で導入する。
システム応答を動的に制御するアクティブディフェンスは、決定に基づく攻撃に対するモデル強化に不可欠である。
我々の発見は、広範囲な理論的および実証的な調査によって裏付けられ、適応的敵がブラックボックスAIベースのシステムに深刻な脅威をもたらすことを確認した。
論文 参考訳(メタデータ) (2023-12-20T21:24:52Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Downlink Power Allocation in Massive MIMO via Deep Learning: Adversarial
Attacks and Training [62.77129284830945]
本稿では,無線環境における回帰問題を考察し,敵攻撃がDLベースのアプローチを損なう可能性があることを示す。
また,攻撃に対するDLベースの無線システムの堅牢性が著しく向上することを示す。
論文 参考訳(メタデータ) (2022-06-14T04:55:11Z) - Attacking and Defending Deep Reinforcement Learning Policies [3.6985039575807246]
本研究では, DRL ポリシーのロバストな最適化の観点から, 敵攻撃に対するロバスト性について検討する。
本稿では,環境との相互作用を伴わずにポリシーの戻りを最小化しようとする欲求攻撃アルゴリズムと,最大限の形式で敵の訓練を行う防衛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:47:54Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z) - Query-based Targeted Action-Space Adversarial Policies on Deep
Reinforcement Learning Agents [23.580682320064714]
本研究は、CPS文学における行動空間領域における標的攻撃(アクティベーション攻撃)を調査する。
対向目標に対する最適な摂動を生成するクエリベースのブラックボックス攻撃モデルが、別の強化学習問題として定式化可能であることを示す。
実験の結果,名目政策のアウトプットのみを観察する敵政策は,名目政策のインプットとアウトプットを観察する敵政策よりも強い攻撃を発生させることがわかった。
論文 参考訳(メタデータ) (2020-11-13T20:25:48Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z) - Adversarial jamming attacks and defense strategies via adaptive deep
reinforcement learning [12.11027948206573]
本稿では、DRLベースの動的チャネルアクセスを行う被害者ユーザと、DRLベースの妨害攻撃を実行して被害者を妨害する攻撃者について考察する。
被害者も攻撃者もDRLエージェントであり、互いに相互作用し、モデルを再訓練し、相手の方針に適応することができる。
攻撃された被害者の精度を最大化し,その性能を評価するための3つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2020-07-12T18:16:00Z) - Boosting Adversarial Training with Hypersphere Embedding [53.75693100495097]
敵対的訓練は、ディープラーニングモデルに対する敵対的攻撃に対する最も効果的な防御の1つである。
本研究では,超球埋め込み機構をATプロシージャに組み込むことを提唱する。
我々は,CIFAR-10 と ImageNet データセットに対する幅広い敵対攻撃の下で本手法を検証した。
論文 参考訳(メタデータ) (2020-02-20T08:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。