論文の概要: Embedded Mean Field Reinforcement Learning for Perimeter-defense Game
- arxiv url: http://arxiv.org/abs/2505.14209v1
- Date: Tue, 20 May 2025 11:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.085181
- Title: Embedded Mean Field Reinforcement Learning for Perimeter-defense Game
- Title(参考訳): 周辺防御ゲームのための組込み平均場強化学習
- Authors: Li Wang, Xin Yu, Xuxin Lv, Gangzheng Ai, Wenjun Wu,
- Abstract要約: 運動力学や風力場といった現実的な要素を取り入れた3次元環境下での大規模な異種周辺防御ゲームについて検討した。
本稿では,防衛戦略における大規模制御課題に対処するために,EMFAC( Embedded Mean-Field Actor-Critic)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.854580112291748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of unmanned aerial vehicles (UAVs) and missile technologies, perimeter-defense game between attackers and defenders for the protection of critical regions have become increasingly complex and strategically significant across a wide range of domains. However, existing studies predominantly focus on small-scale, simplified two-dimensional scenarios, often overlooking realistic environmental perturbations, motion dynamics, and inherent heterogeneity--factors that pose substantial challenges to real-world applicability. To bridge this gap, we investigate large-scale heterogeneous perimeter-defense game in a three-dimensional setting, incorporating realistic elements such as motion dynamics and wind fields. We derive the Nash equilibrium strategies for both attackers and defenders, characterize the victory regions, and validate our theoretical findings through extensive simulations. To tackle large-scale heterogeneous control challenges in defense strategies, we propose an Embedded Mean-Field Actor-Critic (EMFAC) framework. EMFAC leverages representation learning to enable high-level action aggregation in a mean-field manner, supporting scalable coordination among defenders. Furthermore, we introduce a lightweight agent-level attention mechanism based on reward representation, which selectively filters observations and mean-field information to enhance decision-making efficiency and accelerate convergence in large-scale tasks. Extensive simulations across varying scales demonstrate the effectiveness and adaptability of EMFAC, which outperforms established baselines in both convergence speed and overall performance. To further validate practicality, we test EMFAC in small-scale real-world experiments and conduct detailed analyses, offering deeper insights into the framework's effectiveness in complex scenarios.
- Abstract(参考訳): 無人航空機(UAV)とミサイル技術が急速に進歩するにつれ、攻撃者と防衛者の間の周辺防衛ゲームはますます複雑化し、幅広い領域で戦略的に重要になっている。
しかし、既存の研究は主に、現実的な環境摂動、運動力学、および現実の応用性に重大な課題をもたらす固有の不均一性を見渡す、小規模で単純化された2次元シナリオに焦点を当てている。
このギャップを埋めるために,運動力学や風場といった現実的な要素を取り入れた3次元環境下での大規模な異種周囲防御ゲームについて検討した。
攻撃者および守備者双方のナッシュ均衡戦略を導出し、勝利地域を特徴づけ、広範囲なシミュレーションを通じて理論的な結果を検証する。
防衛戦略における大規模な異種制御課題に対処するために,埋め込み平均ベクトル批判(EMFAC)フレームワークを提案する。
EMFACは、表現学習を活用して、平均フィールドでハイレベルなアクションアグリゲーションを可能にし、ディフェンダー間のスケーラブルな調整をサポートする。
さらに,報酬表現に基づく軽量エージェントレベルのアテンション機構を導入し,意思決定効率を高め,大規模タスクにおける収束を促進するために,観測情報と平均場情報を選択的にフィルタリングする。
様々なスケールにわたる広範囲なシミュレーションは、収束速度と全体的な性能の両方において確立されたベースラインを上回るEMFACの有効性と適応性を示す。
実用性をさらに検証するため,我々はEMFACを小規模な実世界の実験でテストし,詳細な分析を行い,複雑なシナリオにおけるフレームワークの有効性についてより深い知見を提供する。
関連論文リスト
- Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Robust Deep Reinforcement Learning in Robotics via Adaptive Gradient-Masked Adversarial Attacks [15.825229211045647]
本稿では、DRLとグラデーションベースのソフトマスキング機構を組み合わせたホワイトボックス攻撃手法であるAGMRアタックを提案し、臨界状態次元を動的に識別し、敵のポリシーを最適化する。
AGMRは、被害者エージェントのパフォーマンスを低下させ、敵防御機構を通じて被害者エージェントの堅牢性を高める、最先端の敵攻撃方法より優れる。
論文 参考訳(メタデータ) (2025-03-26T15:08:58Z) - A Survey of Model Extraction Attacks and Defenses in Distributed Computing Environments [55.60375624503877]
モデル抽出攻撃(MEA)は、敵がモデルを盗み、知的財産と訓練データを公開することによって、現代の機械学習システムを脅かす。
この調査は、クラウド、エッジ、フェデレーションのユニークな特性がどのように攻撃ベクトルや防御要件を形作るのかを、緊急に理解する必要に起因している。
本研究は, 自動運転車, 医療, 金融サービスといった重要な分野において, 環境要因がセキュリティ戦略にどう影響するかを実証し, 攻撃手法と防衛機構の進化を系統的に検討する。
論文 参考訳(メタデータ) (2025-02-22T03:46:50Z) - Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models [62.12822290276912]
Auto-RTは、複雑な攻撃戦略を探索し最適化する強化学習フレームワークである。
探索効率を大幅に改善し、攻撃戦略を自動的に最適化することにより、Auto-RTはボーダの脆弱性範囲を検出し、検出速度が速く、既存の方法と比較して16.63%高い成功率を達成する。
論文 参考訳(メタデータ) (2025-01-03T14:30:14Z) - Embodied Active Defense: Leveraging Recurrent Feedback to Counter Adversarial Patches [37.317604316147985]
敵のパッチに対するディープニューラルネットワークの脆弱性は、モデルロバスト性を高めるための多くの防衛戦略を動機付けている。
本研究では,環境情報を積極的に文脈化して,現実の3次元環境における不整合に対処するEmbodied Active Defense (EAD) を開発した。
論文 参考訳(メタデータ) (2024-03-31T03:02:35Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Embodied Laser Attack:Leveraging Scene Priors to Achieve Agent-based Robust Non-contact Attacks [13.726534285661717]
本稿では,非接触レーザー攻撃を動的に調整する新しい枠組みであるEmbodied Laser Attack (ELA)を紹介する。
認識モジュールのために,ERAは交通シーンの本質的な事前知識に基づいて,局所的な視点変換ネットワークを革新的に開発してきた。
決定と制御モジュールのために、ERAは時間を要するアルゴリズムを採用する代わりに、データ駆動の強化学習で攻撃エージェントを訓練する。
論文 参考訳(メタデータ) (2023-12-15T06:16:17Z) - FACADE: A Framework for Adversarial Circuit Anomaly Detection and
Evaluation [9.025997629442896]
FACADEは、ディープニューラルネットワークにおける教師なしの機械的異常検出のために設計されている。
我々のアプローチは、モデルの堅牢性を改善し、スケーラブルなモデル監視を強化し、現実のデプロイメント環境で有望なアプリケーションを実証することを目指している。
論文 参考訳(メタデータ) (2023-07-20T04:00:37Z) - Boosting Adversarial Training with Hypersphere Embedding [53.75693100495097]
敵対的訓練は、ディープラーニングモデルに対する敵対的攻撃に対する最も効果的な防御の1つである。
本研究では,超球埋め込み機構をATプロシージャに組み込むことを提唱する。
我々は,CIFAR-10 と ImageNet データセットに対する幅広い敵対攻撃の下で本手法を検証した。
論文 参考訳(メタデータ) (2020-02-20T08:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。