論文の概要: R2PS: Worst-Case Robust Real-Time Pursuit Strategies under Partial Observability
- arxiv url: http://arxiv.org/abs/2511.17367v1
- Date: Fri, 21 Nov 2025 16:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.110553
- Title: R2PS: Worst-Case Robust Real-Time Pursuit Strategies under Partial Observability
- Title(参考訳): R2PS: 部分観測可能性下でのロバストなリアルタイム探索手法
- Authors: Runyu Lu, Ruochuan Shi, Yuanheng Zhu, Dongbin Zhao,
- Abstract要約: 本稿では, 部分観測可能条件下でのロバストなリアルタイム追従戦略(R2PS)について紹介する。
我々はまず,マルコフPEGを解くための従来の動的プログラミング(DP)アルゴリズムが,回避者による非同期動作の下で最適性を維持することを証明した。
次に,回避者の可能な位置に関する信念保存機構を提案し,DP追跡戦略を部分的に観察可能な場所に拡張する。
- 参考スコア(独自算出の注目度): 25.176860778665173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computing worst-case robust strategies in pursuit-evasion games (PEGs) is time-consuming, especially when real-world factors like partial observability are considered. While important for general security purposes, real-time applicable pursuit strategies for graph-based PEGs are currently missing when the pursuers only have imperfect information about the evader's position. Although state-of-the-art reinforcement learning (RL) methods like Equilibrium Policy Generalization (EPG) and Grasper provide guidelines for learning graph neural network (GNN) policies robust to different game dynamics, they are restricted to the scenario of perfect information and do not take into account the possible case where the evader can predict the pursuers' actions. This paper introduces the first approach to worst-case robust real-time pursuit strategies (R2PS) under partial observability. We first prove that a traditional dynamic programming (DP) algorithm for solving Markov PEGs maintains optimality under the asynchronous moves by the evader. Then, we propose a belief preservation mechanism about the evader's possible positions, extending the DP pursuit strategies to a partially observable setting. Finally, we embed the belief preservation into the state-of-the-art EPG framework to finish our R2PS learning scheme, which leads to a real-time pursuer policy through cross-graph reinforcement learning against the asynchronous-move DP evasion strategies. After reinforcement learning, our policy achieves robust zero-shot generalization to unseen real-world graph structures and consistently outperforms the policy directly trained on the test graphs by the existing game RL approach.
- Abstract(参考訳): 追従回避ゲーム(PEG)における最悪ケースのロバスト戦略の計算には、特に部分的可観測性のような現実的な要因が考慮されている場合、時間がかかります。
一般的なセキュリティ上の目的において重要であるが、グラフベースのPEGに対するリアルタイム対応型追跡戦略は、現在、追跡者が回避者の位置について不完全な情報しか持たない場合に欠落している。
Equilibrium Policy Generalization (EPG)やGrasperのような最先端の強化学習(RL)手法は、異なるゲームダイナミクスに頑健なグラフニューラルネットワーク(GNN)ポリシーを学習するためのガイドラインを提供するが、それらは完全な情報のシナリオに制限されており、回避者が追跡者の行動を予測できる可能性を考慮していない。
本稿では, 部分観測可能条件下でのロバストなリアルタイム追従戦略(R2PS)について紹介する。
我々はまず,マルコフPEGを解くための従来の動的プログラミング(DP)アルゴリズムが,回避者による非同期動作の下で最適性を維持することを証明した。
そこで本研究では,DP追跡戦略を部分的に観察可能な環境に拡張し,回避者の可能性に関する信念保存機構を提案する。
最後に、その信念保存を最先端のEPGフレームワークに組み込んで、我々のR2PS学習スキームを完成させ、非同期移動DP回避戦略に対するクロスグラフ強化学習を通じてリアルタイムな追跡ポリシーを導いた。
強化学習後、実世界のグラフ構造に頑健なゼロショット一般化を実現し、既存のゲームRLアプローチによりテストグラフ上で直接訓練されたポリシーを一貫して上回っている。
関連論文リスト
- Equilibrium Policy Generalization: A Reinforcement Learning Framework for Cross-Graph Zero-Shot Generalization in Pursuit-Evasion Games [38.70408341845241]
Pursuit-evasion Game(PEG)は、ロボット工学とセキュリティの分野における現実世界のゲームの重要なクラスである。
本稿では,安定なクロスグラフゼロショット性能を持つ一般化政策を学習するための平衡政策一般化フレームワークを提案する。
実験結果から、平衡誘導と距離特徴をクロスグラフPEGトレーニングに用いて、EPGフレームワークは望まれるゼロショット性能を保証していることがわかった。
論文 参考訳(メタデータ) (2025-11-02T05:45:27Z) - Fast and the Furious: Hot Starts in Pursuit-Evasion Games [0.0]
本稿では,ゲーム理論とグラフニューラルネットワークを組み合わせた新しい手法を提案する。
トラッカー構成を戦略的配置として概念化し、それらをグラフとして表現することにより、グラフ特性空間を構築する。
グラフ畳み込みネットワーク(GCN)は、戦略的に効果的な初期設定を生成するために訓練され、"ホットスタート"と呼ばれる。
論文 参考訳(メタデータ) (2025-10-12T22:46:50Z) - Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends [64.71326476563213]
大規模言語モデル(LLM)の非政治強化学習が注目されている。
本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。
この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
論文 参考訳(メタデータ) (2025-09-29T02:34:54Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Reinforcement Learning for Game-Theoretic Resource Allocation on Graphs [9.369330148791201]
GRAG (Game-theoretic Resource allocation on graphs) は、マルチステップのColoner Blotto Game (MCBG) としてモデル化された問題である。
MCBGをマルコフ決定過程(MDP)として定式化し、強化学習(RL)法、特にDeep Q-Network(DQN)とPPOを適用した。
各種グラフ構造および初期資源分布におけるRL性能の評価を行い, ランダム, 欲求, 学習されたRLポリシーとの比較を行った。
論文 参考訳(メタデータ) (2025-05-08T21:12:34Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Grasper: A Generalist Pursuer for Pursuit-Evasion Problems [36.115954360950134]
探索回避ゲーム(PEG)は、グラフベースの環境での追従者と回避者の間の相互作用をモデル化する。
最近の進歩はPSROにおける事前学習および微調整のパラダイムの有効性を示している。
本稿では,Pursuit-Evasion pRoblemsのためのGeneRAlist PurSuerであるGrasperを紹介した。
論文 参考訳(メタデータ) (2024-04-19T04:54:38Z) - On the Adversarial Robustness of Graph Contrastive Learning Methods [9.675856264585278]
本稿では,グラフコントラスト学習(GCL)モデルのロバスト性を評価するために,包括的評価ロバストネスプロトコルを提案する。
我々はこれらのモデルを,グラフ構造をターゲットとした適応的敵攻撃,特に回避シナリオに適用する。
本研究は,GCL手法の堅牢性に関する知見を提供することを目標とし,今後の研究方向の道を開くことを期待する。
論文 参考訳(メタデータ) (2023-11-29T17:59:18Z) - Projective Ranking-based GNN Evasion Attacks [52.85890533994233]
グラフニューラルネットワーク(GNN)は、グラフ関連のタスクに対して、有望な学習方法を提供する。
GNNは敵の攻撃の危険にさらされている。
論文 参考訳(メタデータ) (2022-02-25T21:52:09Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。