論文の概要: Game-Theory-Assisted Reinforcement Learning for Border Defense: Early Termination based on Analytical Solutions
- arxiv url: http://arxiv.org/abs/2603.15907v1
- Date: Mon, 16 Mar 2026 20:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.983528
- Title: Game-Theory-Assisted Reinforcement Learning for Border Defense: Early Termination based on Analytical Solutions
- Title(参考訳): 境界防衛のためのゲーム理論支援強化学習:分析解に基づく早期終了
- Authors: Goutam Das, Michael Dorothy, Kyle Volle, Daigo Shishika,
- Abstract要約: 強化学習(RL)は適応性が高いが、大規模な複雑な領域ではサンプル非効率である。
本稿では,ゲーム理論の洞察を活用してRL学習効率を向上させるハイブリッドアプローチを提案する。
- 参考スコア(独自算出の注目度): 4.206844212918808
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Game theory provides the gold standard for analyzing adversarial engagements, offering strong optimality guarantees. However, these guarantees often become brittle when assumptions such as perfect information are violated. Reinforcement learning (RL), by contrast, is adaptive but can be sample-inefficient in large, complex domains. This paper introduces a hybrid approach that leverages game-theoretic insights to improve RL training efficiency. We study a border defense game with limited perceptual range, where defender performance depends on both search and pursuit strategies, making classical differential game solutions inapplicable. Our method employs the Apollonius Circle (AC) to compute equilibrium in the post-detection phase, enabling early termination of RL episodes without learning pursuit dynamics. This allows RL to concentrate on learning search strategies while guaranteeing optimal continuation after detection. Across single- and multi-defender settings, this early termination method yields 10-20% higher rewards, faster convergence, and more efficient search trajectories. Extensive experiments validate these findings and demonstrate the overall effectiveness of our approach.
- Abstract(参考訳): ゲーム理論は、敵のエンゲージメントを分析するための金の標準を提供し、強力な最適性を保証する。
しかし、完全な情報のような仮定が破られると、これらの保証は不安定になることが多い。
対照的に強化学習(RL)は適応的であるが、大規模な複雑な領域ではサンプル非効率である。
本稿では,ゲーム理論の洞察を活用してRL学習効率を向上させるハイブリッドアプローチを提案する。
本研究では,探索戦略と追従戦略の両方に依存した境界防衛ゲームについて検討し,古典的な微分ゲームソリューションを適用できないようにした。
本手法では,アポロニウス円(AC)を用いて検出後の平衡を計算し,追従ダイナミクスを学習することなくRLエピソードの早期終了を可能にする。
これにより、RLは検出後の最適継続を保証しながら、検索戦略の学習に集中することができる。
シングルおよびマルチディフェンダー設定全体にわたって、この早期終了法は10~20%の報酬、より高速な収束、より効率的な探索トラジェクトリをもたらす。
大規模な実験によりこれらの知見が検証され,本手法の総合的な効果が示された。
関連論文リスト
- DPO: A Differential and Pointwise Control Approach to Reinforcement Learning [3.2857981869020327]
連続状態行動空間における強化学習(RL)は、科学計算において依然として困難である。
本稿では,連続時間制御の観点からRLを再構成する新しいフレームワークである差分強化学習(Differential RL)を紹介する。
我々は,局所運動演算子を洗練させる段階的アルゴリズムである微分ポリシー最適化(DPO)を開発した。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - Robust Offline Reinforcement Learning -- Certify the Confidence Interval [15.464948077412025]
ランダムな平滑化でオフラインでポリシーのロバスト性を証明するためのアルゴリズムを開発する。
異なる環境における実験により,アルゴリズムの正確性が確認された。
論文 参考訳(メタデータ) (2023-09-28T17:37:01Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:10:04Z) - Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
論文 参考訳(メタデータ) (2022-03-22T18:10:32Z) - Who Is the Strongest Enemy? Towards Optimal and Efficient Evasion
Attacks in Deep RL [14.702446153750497]
本稿では,「アクター」と呼ばれる設計関数と「ディレクタ」と呼ばれるRLベースの学習者との協調により,最適な攻撃を見つけるための新たな攻撃手法を提案する。
提案アルゴリズムであるPA-ADは理論上最適であり,大きな状態空間を持つ環境下での従来のRLに基づく作業よりもはるかに効率的である。
論文 参考訳(メタデータ) (2021-06-09T14:06:53Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。