論文の概要: Adversarial Online Learning with Variable Plays in the Pursuit-Evasion
Game: Theoretical Foundations and Application in Connected and Automated
Vehicle Cybersecurity
- arxiv url: http://arxiv.org/abs/2110.14078v1
- Date: Tue, 26 Oct 2021 23:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 12:49:07.611672
- Title: Adversarial Online Learning with Variable Plays in the Pursuit-Evasion
Game: Theoretical Foundations and Application in Connected and Automated
Vehicle Cybersecurity
- Title(参考訳): 遊戯・侵略ゲームにおける可変プレイによる対戦型オンライン学習 : 接続型・自動車両サイバーセキュリティの理論的基礎と応用
- Authors: Yiyang Wang, Neda Masoud
- Abstract要約: 対戦型・非確率型マルチアームバンディット(MPMAB)は,演奏するアームの数が変動している場合に拡張する。
この作業は、相互接続された輸送システムにおいて、異なる重要な場所をスキャンするために割り当てられたリソースが、時間とともに、環境によって動的に変化するという事実によって動機付けられている。
- 参考スコア(独自算出の注目度): 5.9774834479750805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We extend the adversarial/non-stochastic multi-play multi-armed bandit
(MPMAB) to the case where the number of arms to play is variable. The work is
motivated by the fact that the resources allocated to scan different critical
locations in an interconnected transportation system change dynamically over
time and depending on the environment. By modeling the malicious hacker and the
intrusion monitoring system as the attacker and the defender, respectively, we
formulate the problem for the two players as a sequential pursuit-evasion game.
We derive the condition under which a Nash equilibrium of the strategic game
exists. For the defender side, we provide an exponential-weighted based
algorithm with sublinear pseudo-regret. We further extend our model to
heterogeneous rewards for both players, and obtain lower and upper bounds on
the average reward for the attacker. We provide numerical experiments to
demonstrate the effectiveness of a variable-arm play.
- Abstract(参考訳): 我々は,マルチアームバンディット(mpmab,adversarial/non-stochastic multi-armed bandit)を,アーム数が可変の場合まで拡張する。
この作業は、相互接続された輸送システム内の異なる重要な場所をスキャンするために割り当てられたリソースが、時間とともに環境によって動的に変化するという事実によって動機づけられる。
悪意あるハッカーと侵入監視システムをそれぞれ攻撃者および防御者としてモデル化することにより、両プレイヤーの問題を逐次追撃ゲームとして定式化する。
戦略ゲームのナッシュ均衡が存在する条件を導出する。
ディフェンダー側では,sublinear pseudo-regretを用いた指数重み付きアルゴリズムを提案する。
我々はさらに、我々のモデルを両プレイヤーの異種報酬に拡張し、攻撃者に対する平均報酬に対する下限と上限を得る。
可変アームプレイの有効性を示す数値実験を行う。
関連論文リスト
- Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Multi-defender Security Games with Schedules [42.32444288821052]
セキュリティゲームは、しばしば高いセキュリティ設定で戦略的相互作用をモデル化するために使用される。
現実的なシナリオの多くは、より複雑なシステムに埋め込まれた独自の関心と優先順位を持つ複数の異質なディフェンダーを特徴としている。
マルチディフェンダーのセキュリティゲームとは異なり、スケジュールの導入は均衡の非存在を引き起こす可能性があることを示す。
論文 参考訳(メタデータ) (2023-11-28T00:39:02Z) - Cooperation or Competition: Avoiding Player Domination for Multi-Target
Robustness via Adaptive Budgets [76.20705291443208]
我々は、敵攻撃を、異なるプレイヤーがパラメータ更新の合同方向で合意に達するために交渉する交渉ゲームであると見なしている。
我々は、プレイヤーの優位性を避けるために、異なる敵の予算を調整する新しいフレームワークを設計する。
標準ベンチマークの実験では、提案したフレームワークを既存のアプローチに適用することで、マルチターゲットロバスト性が大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-06-27T14:02:10Z) - Adversarial Machine Learning and Defense Game for NextG Signal
Classification with Deep Learning [1.1726528038065764]
NextGシステムは、ユーザ機器の識別、物理層認証、既存ユーザの検出など、さまざまなタスクにディープニューラルネットワーク(DNN)を使用することができる。
本稿では,深層学習に基づくNextG信号分類のための攻撃と防御の相互作用を研究するゲーム理論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-22T15:13:03Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - How Bad is Selfish Driving? Bounding the Inefficiency of Equilibria in
Urban Driving Games [64.71476526716668]
我々は,任意の平衡選手がプレーに同意するであろう効率について検討する。
我々は、アナーキーの価格に関する既存の境界を洗練させる保証を得る。
提案手法はオープンループ軌道に対する懸念を保証しているが,エージェントがクローズドループポリシーを採用する場合においても,効率的な平衡を観測する。
論文 参考訳(メタデータ) (2022-10-24T09:32:40Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Visibility Optimization for Surveillance-Evasion Games [4.454557728745761]
監視回避差分ゲームでは,追跡者が常に移動中の回避者の視認性を維持する必要がある。
本研究では,ゲーム終了時間に対応するフィードバック値関数をアップウインド方式で計算する。
モンテカルロ木探索と自己再生強化学習が深層ニューラルネットワークをトレーニングし,オンラインゲームプレイのための合理的な戦略を生成することを示す。
論文 参考訳(メタデータ) (2020-10-18T15:02:41Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Selfish Robustness and Equilibria in Multi-Player Bandits [25.67398941667429]
ゲームでは、複数のプレイヤーが同時に腕を引いて、同じ腕を同時に引っ張る場合、0の報酬で衝突する。
プレイヤーが集団報酬を最大化する協力的ケースは、主に考慮されてきたが、悪意のあるプレイヤーにとっては非常に重要かつ困難な問題である。
代わりに、社会的福祉を犠牲にして、個人の報酬を最大化するインセンティブを持つより自然な利己的なプレイヤーについて検討する。
論文 参考訳(メタデータ) (2020-02-04T09:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。