論文の概要: Learned Controllers for Agile Quadrotors in Pursuit-Evasion Games
- arxiv url: http://arxiv.org/abs/2506.02849v1
- Date: Tue, 03 Jun 2025 13:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.420861
- Title: Learned Controllers for Agile Quadrotors in Pursuit-Evasion Games
- Title(参考訳): パースーツ・エベイションゲームにおけるアジャイル四足歩行者のための学習されたコントローラ
- Authors: Alejandro Sanchez Roncero, Olov Andersson, Petter Ogren,
- Abstract要約: アジャイル 1v1 四元数追跡回避のための強化学習フレームワークを提案する。
我々は、ニューラルネットワークポリシーをトレーニングし、ボディレートと集団推力を指示し、高速な追尾と回避操作を可能にします。
その結果,速度に基づく政策は速度レベルベースラインよりも捕捉速度とピーク速度を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 46.53041975119627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing proliferation of small UAVs in civilian and military airspace has raised critical safety and security concerns, especially when unauthorized or malicious drones enter restricted zones. In this work, we present a reinforcement learning (RL) framework for agile 1v1 quadrotor pursuit-evasion. We train neural network policies to command body rates and collective thrust, enabling high-speed pursuit and evasive maneuvers that fully exploit the quadrotor's nonlinear dynamics. To mitigate nonstationarity and catastrophic forgetting during adversarial co-training, we introduce an Asynchronous Multi-Stage Population-Based (AMSPB) algorithm where, at each stage, either the pursuer or evader learns against a sampled opponent drawn from a growing population of past and current policies. This continual learning setup ensures monotonic performance improvement and retention of earlier strategies. Our results show that (i) rate-based policies achieve significantly higher capture rates and peak speeds than velocity-level baselines, and (ii) AMSPB yields stable, monotonic gains against a suite of benchmark opponents.
- Abstract(参考訳): 民間機や軍用機における小型無人機の普及は、特に無許可または悪意のあるドローンが制限区域に入る際に、重要な安全とセキュリティ上の懸念を引き起こしている。
本研究では,アジャイル1v1クアロータ追従回避のための強化学習(RL)フレームワークを提案する。
我々は、ニューラルネットワークのポリシーをトレーニングし、ボディレートと集団推力を指示し、クオータの非線形ダイナミクスを完全に活用する高速な追従と回避操作を可能にします。
本研究では,非定常性や大惨なコトレーニング時の忘れを軽減すべく,各段階において,過去の人口増加と現在の政策から引き出されたサンプルに対して,追従者または回避者が学習する非同期多段階人口ベース(AMSPB)アルゴリズムを提案する。
この継続的な学習設定により、以前の戦略の単調なパフォーマンス向上と維持が保証される。
私たちの結果は
(i)速度に基づく政策は速度レベルベースラインよりも捕捉率とピーク速度を著しく向上させ、
(ii)AMSPBはベンチマークの組に対して安定で単調な利得を得る。
関連論文リスト
- Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。