論文の概要: Equilibrium Policy Generalization: A Reinforcement Learning Framework for Cross-Graph Zero-Shot Generalization in Pursuit-Evasion Games
- arxiv url: http://arxiv.org/abs/2511.00811v1
- Date: Sun, 02 Nov 2025 05:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.946632
- Title: Equilibrium Policy Generalization: A Reinforcement Learning Framework for Cross-Graph Zero-Shot Generalization in Pursuit-Evasion Games
- Title(参考訳): Equilibrium Policy Generalization:Powsuit-Evasion Gamesにおけるクロスグラフゼロショット一般化のための強化学習フレームワーク
- Authors: Runyu Lu, Peng Zhang, Ruochuan Shi, Yuanheng Zhu, Dongbin Zhao, Yang Liu, Dong Wang, Cesare Alippi,
- Abstract要約: Pursuit-evasion Game(PEG)は、ロボット工学とセキュリティの分野における現実世界のゲームの重要なクラスである。
本稿では,安定なクロスグラフゼロショット性能を持つ一般化政策を学習するための平衡政策一般化フレームワークを提案する。
実験結果から、平衡誘導と距離特徴をクロスグラフPEGトレーニングに用いて、EPGフレームワークは望まれるゼロショット性能を保証していることがわかった。
- 参考スコア(独自算出の注目度): 38.70408341845241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Equilibrium learning in adversarial games is an important topic widely examined in the fields of game theory and reinforcement learning (RL). Pursuit-evasion game (PEG), as an important class of real-world games from the fields of robotics and security, requires exponential time to be accurately solved. When the underlying graph structure varies, even the state-of-the-art RL methods require recomputation or at least fine-tuning, which can be time-consuming and impair real-time applicability. This paper proposes an Equilibrium Policy Generalization (EPG) framework to effectively learn a generalized policy with robust cross-graph zero-shot performance. In the context of PEGs, our framework is generally applicable to both pursuer and evader sides in both no-exit and multi-exit scenarios. These two generalizability properties, to our knowledge, are the first to appear in this domain. The core idea of the EPG framework is to train an RL policy across different graph structures against the equilibrium policy for each single graph. To construct an equilibrium oracle for single-graph policies, we present a dynamic programming (DP) algorithm that provably generates pure-strategy Nash equilibrium with near-optimal time complexity. To guarantee scalability with respect to pursuer number, we further extend DP and RL by designing a grouping mechanism and a sequence model for joint policy decomposition, respectively. Experimental results show that, using equilibrium guidance and a distance feature proposed for cross-graph PEG training, the EPG framework guarantees desirable zero-shot performance in various unseen real-world graphs. Besides, when trained under an equilibrium heuristic proposed for the graphs with exits, our generalized pursuer policy can even match the performance of the fine-tuned policies from the state-of-the-art PEG methods.
- Abstract(参考訳): 対戦ゲームにおける平衡学習は、ゲーム理論と強化学習(RL)の分野で広く研究されている重要なトピックである。
ロボット工学とセキュリティの分野での現実世界のゲームの重要なクラスであるPursuit-evasion Game (PEG)は、指数関数的な時間を要する。
基礎となるグラフ構造が変われば、最先端のRL手法でさえ再計算や少なくとも微調整を必要とし、これは時間とリアルタイムの応用性を損なう可能性がある。
本稿では,安定なクロスグラフゼロショット性能を持つ一般化政策を効果的に学習するための平衡政策一般化(EPG)フレームワークを提案する。
PEGの文脈では、我々のフレームワークは一般的に、非排他シナリオとマルチ排他シナリオの両方において、追従側と回避側の両方に適用できる。
この2つの一般化可能性の性質は、我々の知る限り、この領域に最初に現れるものである。
EPGフレームワークの中核となる考え方は、各グラフの平衡ポリシーに対して、異なるグラフ構造にわたってRLポリシーをトレーニングすることである。
単一グラフポリシーのための平衡オラクルを構築するために、我々は、ほぼ最適な時間複雑性を持つ純粋ストラテジーナッシュ均衡を確実に生成する動的プログラミング(DP)アルゴリズムを提案する。
追従者数に対するスケーラビリティを保証するため,共同政策分解のためのグループ化機構とシーケンスモデルを設計し,DPとRLをさらに拡張する。
実験結果から, 平衡誘導と距離特徴をクロスグラフPEGトレーニングに用いたEPGフレームワークは, 種々の実世界グラフにおいて, 望ましくないゼロショット性能を保証していることがわかった。
さらに、出口を持つグラフに対して均衡ヒューリスティックな提案がなされた場合、我々の一般化されたトラッカーポリシーは、最先端のPEG手法による微調整されたポリシーのパフォーマンスに適合する。
関連論文リスト
- A Unified Framework for Zero-Shot Reinforcement Learning [0.2951541543732647]
ゼロショット強化学習(Zero-shot reinforcement learning, RL)は、一般エージェントを教師なしで開発するための場として登場した。
関心が高まりつつあるにもかかわらず、この分野には共通の分析レンズがない。
ゼロショットRLのための最初の統一フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T13:30:26Z) - Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends [64.71326476563213]
大規模言語モデル(LLM)の非政治強化学習が注目されている。
本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。
この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
論文 参考訳(メタデータ) (2025-09-29T02:34:54Z) - Policy Optimization for Continuous-time Linear-Quadratic Graphon Mean Field Games [3.1755820123640612]
グラフィオン(Graphon)とは、フィールドゲームがそのようなゲームを近似するための原則的なフレームワークを提供することを意味する。
本稿では,連続時間有限水平線形四元数GMFGに対するポリシー最適化フレームワークの提案と解析を行う。
論文 参考訳(メタデータ) (2025-06-06T09:06:06Z) - Reinforcement Learning for Game-Theoretic Resource Allocation on Graphs [9.369330148791201]
GRAG (Game-theoretic Resource allocation on graphs) は、マルチステップのColoner Blotto Game (MCBG) としてモデル化された問題である。
MCBGをマルコフ決定過程(MDP)として定式化し、強化学習(RL)法、特にDeep Q-Network(DQN)とPPOを適用した。
各種グラフ構造および初期資源分布におけるRL性能の評価を行い, ランダム, 欲求, 学習されたRLポリシーとの比較を行った。
論文 参考訳(メタデータ) (2025-05-08T21:12:34Z) - A Two-Timescale Primal-Dual Framework for Reinforcement Learning via Online Dual Variable Guidance [3.4354636842203026]
正規化マルコフ決定過程(MDP)の解法としてPGDA-RLを提案する。
PGDA-RLは、経験的リプレイに基づく勾配推定と、基礎となるネスト最適化問題の2段階の分解を統合する。
PGDA-RL は正規化 MDP の最適値関数とポリシーにほぼ確実に収束することを示す。
論文 参考訳(メタデータ) (2025-05-07T15:18:43Z) - Grasper: A Generalist Pursuer for Pursuit-Evasion Problems [36.115954360950134]
探索回避ゲーム(PEG)は、グラフベースの環境での追従者と回避者の間の相互作用をモデル化する。
最近の進歩はPSROにおける事前学習および微調整のパラダイムの有効性を示している。
本稿では,Pursuit-Evasion pRoblemsのためのGeneRAlist PurSuerであるGrasperを紹介した。
論文 参考訳(メタデータ) (2024-04-19T04:54:38Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。