論文の概要: Learned Controllers for Agile Quadrotors in Pursuit-Evasion Games
- arxiv url: http://arxiv.org/abs/2506.02849v2
- Date: Mon, 15 Sep 2025 14:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.202555
- Title: Learned Controllers for Agile Quadrotors in Pursuit-Evasion Games
- Title(参考訳): パースーツ・エベイションゲームにおけるアジャイル四足歩行者のための学習されたコントローラ
- Authors: Alejandro Sanchez Roncero, Yixi Cai, Olov Andersson, Petter Ogren,
- Abstract要約: 我々は,アジャイル1v1クアッドロータ追従回避の問題に対処する。
これらの問題に対処するために,非同期多段階人口ベース (AMSPB) アルゴリズムを提案する。
このフレームワークでは、ベロシティコマンドまたはボディーレートを集合推力で出力するニューラルネットワークコントローラをトレーニングします。
- 参考スコア(独自算出の注目度): 42.74003740156243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of agile 1v1 quadrotor pursuit-evasion, where a pursuer and an evader learn to outmaneuver each other through reinforcement learning (RL). Such settings face two major challenges: non-stationarity, since each agent's evolving policy alters the environment dynamics and destabilizes training, and catastrophic forgetting, where a policy overfits to the current adversary and loses effectiveness against previously encountered strategies. To tackle these issues, we propose an Asynchronous Multi-Stage Population-Based (AMSPB) algorithm. At each stage, the pursuer and evader are trained asynchronously against a frozen pool of opponents sampled from a growing population of past and current policies, stabilizing training and ensuring exposure to diverse behaviors. Within this framework, we train neural network controllers that output either velocity commands or body rates with collective thrust. Experiments in a high-fidelity simulator show that: (i) AMSPB-trained RL policies outperform RL and geometric baselines; (ii) body-rate-and-thrust controllers achieve more agile flight than velocity-based controllers, leading to better pursuit-evasion performance; (iii) AMSPB yields stable, monotonic gains across stages; and (iv) trained policies in one arena size generalize fairly well to other sizes without retraining.
- Abstract(参考訳): 本稿では,アジャイル1v1クアッドロータ追従回避の問題に対処する。そこでは,追従者と回避者が強化学習(RL)を通じて互いに圧倒することを学習する。
非定常性(non-stationarity)とは、各エージェントの進化するポリシーが環境のダイナミクスを変え、トレーニングを不安定にするものである。
これらの問題に対処するために,非同期多段階人口ベース (AMSPB) アルゴリズムを提案する。
各段階において、追跡者と回避者は、過去の人口の増加と現在の政策から採取された凍った相手のプールに対して非同期に訓練され、トレーニングの安定化と多様な行動への露出を保証する。
このフレームワークでは、ベロシティコマンドまたはボディーレートを集合推力で出力するニューラルネットワークコントローラをトレーニングします。
高忠実度シミュレータの実験では、こう示されています。
i) AMSPB訓練RLポリシーは、RLおよび幾何学的ベースラインを上回っている。
(II)ボディーレート・アンド・スラスト制御器はベロシティベースの制御器よりもアジャイルな飛行を実現し、追従回避性能が向上する。
三)AMSPBは、段階にわたって安定で単調な利得を得る。
(4)1つのアリーナサイズで訓練されたポリシーは、再訓練せずに他のサイズにかなりよく一般化する。
関連論文リスト
- Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [56.47577824219207]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。
本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。
エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。
我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文 参考訳(メタデータ) (2025-08-01T13:55:39Z) - Sharpening the Spear: Adaptive Expert-Guided Adversarial Attack Against DRL-based Autonomous Driving Policies [3.5120264792560993]
深部強化学習(DRL)は自動運転のための有望なパラダイムとして浮上している。
DRLベースの政策は、敵の攻撃に対して非常に脆弱であり、現実世界の展開において深刻な安全リスクを生じさせる。
本稿では,攻撃政策訓練の安定性と効率性を両立させる適応的専門家誘導型敵攻撃法を提案する。
論文 参考訳(メタデータ) (2025-06-23T05:42:49Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。