論文の概要: Grasper: A Generalist Pursuer for Pursuit-Evasion Problems
- arxiv url: http://arxiv.org/abs/2404.12626v1
- Date: Fri, 19 Apr 2024 04:54:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:15:12.863668
- Title: Grasper: A Generalist Pursuer for Pursuit-Evasion Problems
- Title(参考訳): Grasper: 一般論のPowsuit-Evasion問題に対するPursuer
- Authors: Pengdeng Li, Shuxin Li, Xinrun Wang, Jakub Cerny, Youzhi Zhang, Stephen McAleer, Hau Chan, Bo An,
- Abstract要約: 探索回避ゲーム(PEG)は、グラフベースの環境での追従者と回避者の間の相互作用をモデル化する。
最近の進歩はPSROにおける事前学習および微調整のパラダイムの有効性を示している。
本稿では,Pursuit-Evasion pRoblemsのためのGeneRAlist PurSuerであるGrasperを紹介した。
- 参考スコア(独自算出の注目度): 36.115954360950134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pursuit-evasion games (PEGs) model interactions between a team of pursuers and an evader in graph-based environments such as urban street networks. Recent advancements have demonstrated the effectiveness of the pre-training and fine-tuning paradigm in PSRO to improve scalability in solving large-scale PEGs. However, these methods primarily focus on specific PEGs with fixed initial conditions that may vary substantially in real-world scenarios, which significantly hinders the applicability of the traditional methods. To address this issue, we introduce Grasper, a GeneRAlist purSuer for Pursuit-Evasion pRoblems, capable of efficiently generating pursuer policies tailored to specific PEGs. Our contributions are threefold: First, we present a novel architecture that offers high-quality solutions for diverse PEGs, comprising critical components such as (i) a graph neural network (GNN) to encode PEGs into hidden vectors, and (ii) a hypernetwork to generate pursuer policies based on these hidden vectors. As a second contribution, we develop an efficient three-stage training method involving (i) a pre-pretraining stage for learning robust PEG representations through self-supervised graph learning techniques like GraphMAE, (ii) a pre-training stage utilizing heuristic-guided multi-task pre-training (HMP) where heuristic-derived reference policies (e.g., through Dijkstra's algorithm) regularize pursuer policies, and (iii) a fine-tuning stage that employs PSRO to generate pursuer policies on designated PEGs. Finally, we perform extensive experiments on synthetic and real-world maps, showcasing Grasper's significant superiority over baselines in terms of solution quality and generalizability. We demonstrate that Grasper provides a versatile approach for solving pursuit-evasion problems across a broad range of scenarios, enabling practical deployment in real-world situations.
- Abstract(参考訳): 都市街路網などのグラフベースの環境における追跡者と回避者の間の相互作用を,PEG(Pursuit-evasion Game)がモデル化する。
最近の進歩は、PSROにおける事前学習および微調整のパラダイムが大規模PEGの解法におけるスケーラビリティ向上に有効であることを示すものである。
しかし、これらの手法は主に固定初期条件を持つ特定のPEGに焦点をあてており、これは現実のシナリオで大きく異なる可能性があるため、従来の手法の適用性を著しく妨げている。
この問題に対処するために、我々は、特定のPEGに適したトラッカーポリシーを効率的に生成できる、Pursuit-Evasion pRoblemsのためのGeneRAlist PurSuerであるGrasperを紹介した。
まず、多種多様なPEGに対して高品質なソリューションを提供する新しいアーキテクチャを紹介します。
i) PEGを隠れベクターにエンコードするグラフニューラルネットワーク(GNN)
(ii)これらの隠れベクトルに基づいてトラクサポリシーを生成するハイパーネットワーク。
第2の貢献として,効率的な3段階学習法を開発した。
i)GraphMAEのような自己教師付きグラフ学習技術を用いて,堅牢なPEG表現を学習するための事前学習段階
(二)ヒューリスティック誘導マルチタスク事前訓練(HMP)を利用した事前訓練段階において、ヒューリスティック誘導参照ポリシー(例えば、ダイクストラのアルゴリズムによる)が追従ポリシーを規則化し、
3PSROを用いて指定されたPEGの追従ポリシーを生成する微調整段階。
最後に, 合成および実世界の地図に関する広範な実験を行い, 解の質と一般化性の観点から, ベースラインよりもグラスパーの顕著な優位性を示す。
我々はGrasperが、幅広いシナリオで追従回避問題を解決するための汎用的なアプローチを提供し、現実の状況に実用的なデプロイを可能にすることを実証した。
関連論文リスト
- Effective Tuning Strategies for Generalist Robot Manipulation Policies [45.36380662552082]
汎用ロボット操作ポリシー(GMP)は、幅広いタスク、デバイス、環境にまたがって一般化する可能性がある。
ファインチューニングは、新しいドメインやタスクに限られたサンプルで迅速に適応する実用的な方法であるが、その結果のGMPの性能は、ファインチューニング戦略の設計選択に関して大きく異なる。
論文 参考訳(メタデータ) (2024-10-02T04:00:25Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - 1st Place Solution for PSG competition with ECCV'22 SenseHuman Workshop [1.5362025549031049]
Panoptic Scene Graph (PSG) の生成は、厳密なバウンディングボックスの代わりに、パノプティックセグメンテーションに基づいてシーングラフ表現を生成することを目的としている。
本稿では,Global Relation Networkの2段階パラダイムであるGRNetを提案する。
我々はOpenPSGデータセットの総合的な実験を行い、リードボード上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-06T09:47:46Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Universal Prompt Tuning for Graph Neural Networks [10.250964386142819]
我々は,任意の事前学習戦略の下で,事前学習したGNNモデルに対して,GPF(Graph Prompt Feature)と呼ばれる普遍的なプロンプトベースのチューニング手法を提案する。
GPFは入力グラフの特徴空間上で動作し、理論的には任意の形式のプロンプト関数に等価な効果を達成できる。
本手法は,事前学習戦略を応用したモデルに適用した場合,既存の特殊プロンプトベースのチューニング手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-09-30T05:19:27Z) - Controlling Conditional Language Models with Distributional Policy
Gradients [2.9176992922046923]
汎用事前学習型生成モデルは、ダウンストリーム要求の一部を満たすことができないことが多い。
このことは、事前訓練された生成モデルをその能力を破壊することなく新しいタスクに適応させる方法について重要な疑問を提起する。
近年の研究では、エネルギーモデルを用いてタスク固有の要求を表現することによって、この問題を解決することが示唆されている。
本稿では,条件付きDMG(CDPG)を提案し,条件付きタスクにアプローチを拡張した。
論文 参考訳(メタデータ) (2021-12-01T19:24:05Z) - Predicting Deep Neural Network Generalization with Perturbation Response
Curves [58.8755389068888]
トレーニングネットワークの一般化能力を評価するための新しいフレームワークを提案する。
具体的には,一般化ギャップを正確に予測するための2つの新しい尺度を提案する。
PGDL(Predicting Generalization in Deep Learning)のNeurIPS 2020コンペティションにおけるタスクの大部分について、現在の最先端の指標よりも優れた予測スコアを得る。
論文 参考訳(メタデータ) (2021-06-09T01:37:36Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Causal Policy Gradients [6.123324869194195]
因果ポリシー勾配(CPG)は、重要な最先端アルゴリズムを分析する共通のフレームワークを提供する。
CPGは従来の政策の勾配を一般化し、問題領域の生成過程の事前知識を組み込む原則的な方法をもたらす。
論文 参考訳(メタデータ) (2021-02-20T14:51:12Z) - Reinforcement Learning-based Black-Box Evasion Attacks to Link
Prediction in Dynamic Graphs [87.5882042724041]
動的グラフ(LPDG)におけるリンク予測は、多様な応用を持つ重要な研究課題である。
我々は,LPDG法の脆弱性を調査し,最初の実用的なブラックボックス回避攻撃を提案する。
論文 参考訳(メタデータ) (2020-09-01T01:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。