論文の概要: Visibility Optimization for Surveillance-Evasion Games
- arxiv url: http://arxiv.org/abs/2010.09001v2
- Date: Sat, 26 Mar 2022 20:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 04:33:43.327420
- Title: Visibility Optimization for Surveillance-Evasion Games
- Title(参考訳): サーベイランスエバージョンゲームにおける可視性最適化
- Authors: Louis Ly and Yen-Hsi Richard Tsai
- Abstract要約: 監視回避差分ゲームでは,追跡者が常に移動中の回避者の視認性を維持する必要がある。
本研究では,ゲーム終了時間に対応するフィードバック値関数をアップウインド方式で計算する。
モンテカルロ木探索と自己再生強化学習が深層ニューラルネットワークをトレーニングし,オンラインゲームプレイのための合理的な戦略を生成することを示す。
- 参考スコア(独自算出の注目度): 4.454557728745761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider surveillance-evasion differential games, where a pursuer must try
to constantly maintain visibility of a moving evader. The pursuer loses as soon
as the evader becomes occluded. Optimal controls for game can be formulated as
a Hamilton-Jacobi-Isaac equation. We use an upwind scheme to compute the
feedback value function, corresponding to the end-game time of the differential
game. Although the value function enables optimal controls, it is prohibitively
expensive to compute, even for a single pursuer and single evader on a small
grid. We consider a discrete variant of the surveillance-game. We propose two
locally optimal strategies based on the static value function for the
surveillance-evasion game with multiple pursuers and evaders. We show that
Monte Carlo tree search and self-play reinforcement learning can train a deep
neural network to generate reasonable strategies for on-line game play. Given
enough computational resources and offline training time, the proposed model
can continue to improve its policies and efficiently scale to higher
resolutions.
- Abstract(参考訳): 監視回避差分ゲームでは,追跡者が常に移動中の回避者の視認性を維持する必要がある。
追突者は、回避者が閉塞されるとすぐに負ける。
ゲームの最適制御はハミルトン-ヤコビ-isaac方程式として定式化できる。
差動ゲームの終了時間に対応するフィードバック値関数を計算するためにアップウインドスキームを用いる。
値関数は最適制御を可能にするが、小さなグリッド上の1つの追従者や1つの回避者であっても計算は極めて高価である。
我々は監視ゲームの個別版を考える。
複数の追従者や回避者による監視回避ゲームにおける静的値関数に基づく2つの局所最適戦略を提案する。
モンテカルロ木探索と自己再生強化学習が深層ニューラルネットワークをトレーニングし,オンラインゲームプレイのための合理的な戦略を生成することを示す。
十分な計算資源とオフライントレーニング時間があれば、提案したモデルはポリシーを改善し続け、より高解像度に効率的にスケールすることができる。
関連論文リスト
- A Minimaximalist Approach to Reinforcement Learning from Human Feedback [53.05529717075474]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Scaling Laws for Imitation Learning in Single-Agent Games [29.941613597833133]
我々は,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境に類似した改善がもたらされるかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
IL損失と平均戻り値は計算予算とスムーズに一致し,相関関係が強く,計算最適ILエージェントの訓練には電力法則が適用されることがわかった。
論文 参考訳(メタデータ) (2023-07-18T16:43:03Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Recursive Reasoning in Minimax Games: A Level $k$ Gradient Play Method [0.0]
GAN(Generative Adversarial Network)は、訓練が難しいことで知られている。
新たな推論を提案する: Level $k$ Play (Lvv.k GP)
多くの既存アルゴリズムとは対照的に、我々のアルゴリズムは洗練された情報や曲率情報を必要としない。
我々は、30時間以内に無条件画像生成のための10.17のFIDを達成し、一般的な計算資源のGANトレーニングを最先端のパフォーマンスに到達させる。
論文 参考訳(メタデータ) (2022-10-29T03:43:59Z) - No-regret learning for repeated non-cooperative games with lossy bandits [5.437709019435926]
本研究では,長期的後悔の損失を最小限に抑えるために,プレイヤーの非同期オンライン学習戦略について検討する。
この論文は、損失帯域付きオンライングラディエントDescent(OGD-lb)と呼ばれる、新しい非回帰学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-05-14T05:02:56Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Adversarial Online Learning with Variable Plays in the Pursuit-Evasion
Game: Theoretical Foundations and Application in Connected and Automated
Vehicle Cybersecurity [5.9774834479750805]
対戦型・非確率型マルチアームバンディット(MPMAB)は,演奏するアームの数が変動している場合に拡張する。
この作業は、相互接続された輸送システムにおいて、異なる重要な場所をスキャンするために割り当てられたリソースが、時間とともに、環境によって動的に変化するという事実によって動機付けられている。
論文 参考訳(メタデータ) (2021-10-26T23:09:42Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Disentangling Controllable Object through Video Prediction Improves
Visual Reinforcement Learning [82.25034245150582]
多くの視覚に基づく強化学習問題において、エージェントは視野内の可動物体を制御する。
制御可能なオブジェクトを観測信号から切り離すためのエンドツーエンド学習フレームワークを提案する。
不整合表現は、RLがエージェントに追加の観察チャネルとして有用であることが示されている。
論文 参考訳(メタデータ) (2020-02-21T05:43:34Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。