論文の概要: Strategic Communication under Threat: Learning Information Trade-offs in Pursuit-Evasion Games
- arxiv url: http://arxiv.org/abs/2510.07813v1
- Date: Thu, 09 Oct 2025 05:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.891732
- Title: Strategic Communication under Threat: Learning Information Trade-offs in Pursuit-Evasion Games
- Title(参考訳): 脅威下における戦略的コミュニケーション--Powsuit-Evasion Gamesにおける情報トレードオフの学習
- Authors: Valerio La Gatta, Dolev Mutzari, Sarit Kraus, VS Subrahmanian,
- Abstract要約: 追跡エージェントが回避者の位置を得るためにいつ通信するかを判断しなければならないPursuitEvasion-Exposure-Concealment Game (PEEC) を定式化する。
双方のエージェントは強化学習を通じて行動方針を学習し、追跡者は観測可能性とリスクのバランスをとるコミュニケーション方針も学習する。
実験的な評価は、SHADOW追跡者が6つの競争基準よりも高い成功率を達成することを示している。
- 参考スコア(独自算出の注目度): 21.58614507029022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial environments require agents to navigate a key strategic trade-off: acquiring information enhances situational awareness, but may simultaneously expose them to threats. To investigate this tension, we formulate a PursuitEvasion-Exposure-Concealment Game (PEEC) in which a pursuer agent must decide when to communicate in order to obtain the evader's position. Each communication reveals the pursuer's location, increasing the risk of being targeted. Both agents learn their movement policies via reinforcement learning, while the pursuer additionally learns a communication policy that balances observability and risk. We propose SHADOW (Strategic-communication Hybrid Action Decision-making under partial Observation for Warfare), a multi-headed sequential reinforcement learning framework that integrates continuous navigation control, discrete communication actions, and opponent modeling for behavior prediction. Empirical evaluations show that SHADOW pursuers achieve higher success rates than six competitive baselines. Our ablation study confirms that temporal sequence modeling and opponent modeling are critical for effective decision-making. Finally, our sensitivity analysis reveals that the learned policies generalize well across varying communication risks and physical asymmetries between agents.
- Abstract(参考訳): 情報取得は状況認識を高めるが、同時に脅威に晒す可能性がある。
この緊張を調査するために,追跡エージェントが回避者の位置を得るためにいつ通信するかを判断しなければならないPursuitEvasion-Exposure-Concealment Game (PEEC) を定式化する。
各通信は追跡者の位置を明らかにし、標的となるリスクを増大させる。
双方のエージェントは強化学習を通じて行動方針を学習し、追跡者は観測可能性とリスクのバランスをとるコミュニケーション方針も学習する。
本稿では、連続的なナビゲーション制御、離散的な通信動作、行動予測のための相手モデルを統合する多面的強化学習フレームワーク、SHADOW(Strategic-Communication Hybrid Action Decision-making under partial Observation for Warfare)を提案する。
実験的な評価は、SHADOW追跡者が6つの競争基準よりも高い成功率を達成することを示している。
我々のアブレーション研究は、時間的シーケンスモデリングと反対モデルが効果的な意思決定に重要であることを確認した。
最後に, 各種コミュニケーションリスクとエージェント間の物理的非対称性にまたがって, 学習方針が適切に一般化されていることを, 感度分析により明らかにした。
関連論文リスト
- Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [51.736723807086385]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。
本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。
エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。
我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文 参考訳(メタデータ) (2025-08-01T13:55:39Z) - Learning to Communicate in Multi-Agent Reinforcement Learning for Autonomous Cyber Defence [4.267944967869789]
本稿では,サイバーオペレーション研究ジムでトレーニングゲームを行うことにより,防衛エージェントが差し迫ったサイバー脅威に対してコミュニケーションし,防御することを学ぶゲーム設計を提案する。
これらの自律エージェントが学んだ戦術的方針は、サイバー脅威を避けるためのインシデント対応において、人間の専門家に似ています。
論文 参考訳(メタデータ) (2025-07-19T15:16:24Z) - SUB-PLAY: Adversarial Policies against Partially Observed Multi-Agent Reinforcement Learning Systems [40.91476827978885]
攻撃者は被害者の脆弱性を迅速に悪用し、特定のタスクの失敗につながる敵のポリシーを生成する。
部分観測可能性の影響を軽減するために,複数のサブゲームを構築するという概念を取り入れた新しいブラックボックス攻撃(SUB-PLAY)を提案する。
我々は,敵対的政策によるセキュリティの脅威を軽減するための3つの防衛策を評価する。
論文 参考訳(メタデータ) (2024-02-06T06:18:16Z) - Imitating Opponent to Win: Adversarial Policy Imitation Learning in
Two-player Competitive Games [0.0]
敵エージェントが採用する敵ポリシーは、ターゲットRLエージェントに影響を及ぼし、マルチエージェント環境では性能が良くない。
既存の研究では、被害者エージェントと対話した経験に基づいて、敵の政策を直接訓練している。
我々は、この欠点を克服する、新しい効果的な対人政策学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-30T18:32:02Z) - Certifiably Robust Policy Learning against Adversarial Communication in
Multi-agent Systems [51.6210785955659]
多くのマルチエージェント強化学習(MARL)では,エージェントが情報を共有し,適切な判断を下す上でコミュニケーションが重要である。
しかし、ノイズや潜在的な攻撃者が存在する現実世界のアプリケーションに訓練された通信エージェントを配置すると、通信ベースのポリシーの安全性は過小評価されている深刻な問題となる。
本研究では,攻撃者が任意の$CfracN-12$エージェントから被害者エージェントへの通信を任意に変更できる,$N$エージェントを備えた環境を検討する。
論文 参考訳(メタデータ) (2022-06-21T07:32:18Z) - Multi-Agent Adversarial Attacks for Multi-Channel Communications [24.576538640840976]
無線通信シナリオにおける敵をモデル化・解析するためのマルチエージェント・敵システム(MAAS)を提案する。
相手を学習エージェントとしてモデル化することにより,提案するMAASが,送信者戦略の事前知識を必要とせず,送信チャネルと割り当てされた各パワーを適切に選択可能であることを示す。
論文 参考訳(メタデータ) (2022-01-22T23:57:00Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。