論文の概要: Learned Controllers for Agile Quadrotors in Pursuit-Evasion Games
- arxiv url: http://arxiv.org/abs/2506.02849v1
- Date: Tue, 03 Jun 2025 13:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.420861
- Title: Learned Controllers for Agile Quadrotors in Pursuit-Evasion Games
- Title(参考訳): パースーツ・エベイションゲームにおけるアジャイル四足歩行者のための学習されたコントローラ
- Authors: Alejandro Sanchez Roncero, Olov Andersson, Petter Ogren,
- Abstract要約: アジャイル 1v1 四元数追跡回避のための強化学習フレームワークを提案する。
我々は、ニューラルネットワークポリシーをトレーニングし、ボディレートと集団推力を指示し、高速な追尾と回避操作を可能にします。
その結果,速度に基づく政策は速度レベルベースラインよりも捕捉速度とピーク速度を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 46.53041975119627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing proliferation of small UAVs in civilian and military airspace has raised critical safety and security concerns, especially when unauthorized or malicious drones enter restricted zones. In this work, we present a reinforcement learning (RL) framework for agile 1v1 quadrotor pursuit-evasion. We train neural network policies to command body rates and collective thrust, enabling high-speed pursuit and evasive maneuvers that fully exploit the quadrotor's nonlinear dynamics. To mitigate nonstationarity and catastrophic forgetting during adversarial co-training, we introduce an Asynchronous Multi-Stage Population-Based (AMSPB) algorithm where, at each stage, either the pursuer or evader learns against a sampled opponent drawn from a growing population of past and current policies. This continual learning setup ensures monotonic performance improvement and retention of earlier strategies. Our results show that (i) rate-based policies achieve significantly higher capture rates and peak speeds than velocity-level baselines, and (ii) AMSPB yields stable, monotonic gains against a suite of benchmark opponents.
- Abstract(参考訳): 民間機や軍用機における小型無人機の普及は、特に無許可または悪意のあるドローンが制限区域に入る際に、重要な安全とセキュリティ上の懸念を引き起こしている。
本研究では,アジャイル1v1クアロータ追従回避のための強化学習(RL)フレームワークを提案する。
我々は、ニューラルネットワークのポリシーをトレーニングし、ボディレートと集団推力を指示し、クオータの非線形ダイナミクスを完全に活用する高速な追従と回避操作を可能にします。
本研究では,非定常性や大惨なコトレーニング時の忘れを軽減すべく,各段階において,過去の人口増加と現在の政策から引き出されたサンプルに対して,追従者または回避者が学習する非同期多段階人口ベース(AMSPB)アルゴリズムを提案する。
この継続的な学習設定により、以前の戦略の単調なパフォーマンス向上と維持が保証される。
私たちの結果は
(i)速度に基づく政策は速度レベルベースラインよりも捕捉率とピーク速度を著しく向上させ、
(ii)AMSPBはベンチマークの組に対して安定で単調な利得を得る。
関連論文リスト
- Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [56.47577824219207]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。
本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。
エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。
我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文 参考訳(メタデータ) (2025-08-01T13:55:39Z) - Sharpening the Spear: Adaptive Expert-Guided Adversarial Attack Against DRL-based Autonomous Driving Policies [3.5120264792560993]
深部強化学習(DRL)は自動運転のための有望なパラダイムとして浮上している。
DRLベースの政策は、敵の攻撃に対して非常に脆弱であり、現実世界の展開において深刻な安全リスクを生じさせる。
本稿では,攻撃政策訓練の安定性と効率性を両立させる適応的専門家誘導型敵攻撃法を提案する。
論文 参考訳(メタデータ) (2025-06-23T05:42:49Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。