論文の概要: Intent-Context Synergy Reinforcement Learning for Autonomous UAV Decision-Making in Air Combat
- arxiv url: http://arxiv.org/abs/2603.00974v1
- Date: Sun, 01 Mar 2026 08:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.436377
- Title: Intent-Context Synergy Reinforcement Learning for Autonomous UAV Decision-Making in Air Combat
- Title(参考訳): 空気コンバットにおける自律型UAV意思決定のためのインテントコンテキストシナジー強化学習
- Authors: Jiahao Fu, Feng Yang,
- Abstract要約: 本稿では、競合環境における自律型UAV侵入のためのIntent-Context Synergy Reinforcement Learning(ICS-RL)フレームワークを提案する。
LSTMベースのIntent Prediction Moduleは、将来の敵ユニットの軌跡を予測し、決定パラダイムをリアクティブ回避から積極的に計画に変換する。
コンテキスト分析合成機構は、ミッションを階層的なサブタスク(安全なクルーズ、ステルス計画、敵対的なブレークスルー)に分解する
Max-Advantage値に基づく動的スイッチングコントローラはこれらのエージェントをシームレスに統合し、UAVはハードコードされたルールなしで最適なポリシーを適応的に選択できる。
- 参考スコア(独自算出の注目度): 2.9612776591672443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous UAV infiltration in dynamic contested environments remains a significant challenge due to the partially observable nature of threats and the conflicting objectives of mission efficiency versus survivability. Traditional Reinforcement Learning (RL) approaches often suffer from myopic decision-making and struggle to balance these trade-offs in real-time. To address these limitations, this paper proposes an Intent-Context Synergy Reinforcement Learning (ICS-RL) framework. The framework introduces two core innovations: (1) An LSTM-based Intent Prediction Module that forecasts the future trajectories of hostile units, transforming the decision paradigm from reactive avoidance to proactive planning via state augmentation; (2) A Context-Analysis Synergy Mechanism that decomposes the mission into hierarchical sub-tasks (safe cruise, stealth planning, and hostile breakthrough). We design a heterogeneous ensemble of Dueling DQN agents, each specialized in a specific tactical context. A dynamic switching controller based on Max-Advantage values seamlessly integrates these agents, allowing the UAV to adaptively select the optimal policy without hard-coded rules. Extensive simulations demonstrate that ICS-RL significantly outperforms baselines (Standard DDQN) and traditional methods (PSO, Game Theory). The proposed method achieves a mission success rate of 88\% and reduces the average exposure frequency to 0.24 per episode, validating its superiority in ensuring robust and stealthy penetration in high-dynamic scenarios.
- Abstract(参考訳): 動的に競合する環境における自律型UAVの侵入は、脅威の部分的に観察可能な性質と、ミッション効率と生存可能性の相反する目的のために依然として重大な課題である。
伝統的な強化学習(RL)アプローチは、しばしば筋力的な意思決定に悩まされ、これらのトレードオフをリアルタイムでバランスをとるのに苦労する。
これらの制約に対処するため,本研究ではICS-RLフレームワークを提案する。
LSTMをベースとしたIntent Prediction Moduleは,(1)攻撃ユニットの将来の軌跡を予測し,意思決定パラダイムを反応回避から状態拡張による前向きな計画に転換する,(2)ミッションを階層的なサブタスク(安全なクルーズ,ステルス計画,敵対的なブレークスルー)に分解するコンテキスト・アナリシス・シナジー機構を導入する,という2つの中心的イノベーションを紹介している。
我々は、DQNエージェントの異種アンサンブルを設計し、それぞれが特定の戦術的文脈に特化している。
Max-Advantage値に基づく動的スイッチングコントローラはこれらのエージェントをシームレスに統合し、UAVはハードコードされたルールなしで最適なポリシーを適応的に選択できる。
大規模なシミュレーションにより、ICS-RLはベースライン(Standard DDQN)と従来の手法(PSO、ゲーム理論)を著しく上回ることを示した。
提案手法は, ミッション成功率88\%を達成し, 平均露光周波数を1回当たり0.24に低減し, 高流動シナリオにおけるロバストかつステルス性の浸透を確実にする上で, その優位性を検証した。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Bayesian Ambiguity Contraction-based Adaptive Robust Markov Decision Processes for Adversarial Surveillance Missions [1.7188280334580195]
コラボレーティブ・コンバット・エアクラフト(CCA)は、自律的な知能、監視、偵察ミッションを可能にするために計画されている。
これらのミッションは、モデルの不確実性と、安全でリアルタイムな意思決定の必要性によって、課題を提起する。
本稿では,CCA を用いた ISR ミッションに適した適応型マルコフ決定処理フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-01T13:31:40Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - DOPA: Stealthy and Generalizable Backdoor Attacks from a Single Client under Challenging Federated Constraints [2.139012072214621]
フェデレーテッド・ラーニング(FL)は、プライバシー保護のための協調トレーニングにますます採用されているが、その分散した性質は、バックドア攻撃の影響を受けやすい。
しかし、既存の攻撃方法は、しばしば理想化された仮定に依存し、現実の制約の下で有効に保たない。
異種ローカルトレーニングのダイナミクスをシミュレートし,多種多様な最適化トラジェクトリ間のコンセンサスを求める新しいフレームワークであるDOPAを提案する。
論文 参考訳(メタデータ) (2025-08-20T08:39:12Z) - Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [51.736723807086385]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。
本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。
エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。
我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文 参考訳(メタデータ) (2025-08-01T13:55:39Z) - CyGATE: Game-Theoretic Cyber Attack-Defense Engine for Patch Strategy Optimization [73.13843039509386]
本稿では,攻撃と防御の相互作用をモデル化するゲーム理論フレームワークCyGATEを提案する。
CyGATEはサイバー・キル・チェーン(Cyber Kill Chain)の段階にわたって、サイバー紛争を部分的に観察可能なゲーム(POSG)として捉えている。
フレームワークの柔軟なアーキテクチャは、マルチエージェントシナリオの拡張を可能にする。
論文 参考訳(メタデータ) (2025-08-01T09:53:06Z) - Policy Disruption in Reinforcement Learning:Adversarial Attack with Large Language Models and Critical State Identification [8.292056374554162]
強化学習(Reinforcement Learning, RL)は、ロボット工学や自律運転などの分野で大きな成功を収めている。
既存のアプローチはしばしば環境やポリシーの変更に依存し、実用性を制限する。
本稿では,環境の変化を伴わずにターゲットポリシーを誘導し,準最適動作を出力する敵攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-07-24T05:52:06Z) - Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments [6.956559003734227]
無人航空機(UAV)は、強化学習(RL)の脆弱性を利用する敵の攻撃にさらされている。
本稿では,より広範な分布シフトへの適応性を高めるための反フレジブルRLフレームワークを提案する。
より優れた性能を発揮し、短い航法路の長さと衝突のない航法軌道の速度を示す。
論文 参考訳(メタデータ) (2025-06-26T10:06:29Z) - Embodied Laser Attack:Leveraging Scene Priors to Achieve Agent-based Robust Non-contact Attacks [13.726534285661717]
本稿では,非接触レーザー攻撃を動的に調整する新しい枠組みであるEmbodied Laser Attack (ELA)を紹介する。
認識モジュールのために,ERAは交通シーンの本質的な事前知識に基づいて,局所的な視点変換ネットワークを革新的に開発してきた。
決定と制御モジュールのために、ERAは時間を要するアルゴリズムを採用する代わりに、データ駆動の強化学習で攻撃エージェントを訓練する。
論文 参考訳(メタデータ) (2023-12-15T06:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。