論文の概要: Bayesian Ambiguity Contraction-based Adaptive Robust Markov Decision Processes for Adversarial Surveillance Missions
- arxiv url: http://arxiv.org/abs/2512.01660v1
- Date: Mon, 01 Dec 2025 13:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.866987
- Title: Bayesian Ambiguity Contraction-based Adaptive Robust Markov Decision Processes for Adversarial Surveillance Missions
- Title(参考訳): ベイズアンビグニティ契約に基づく適応ロバストマルコフ決定過程の逆サーベイランスミッションへの応用
- Authors: Jimin Choi, Max Z. Li,
- Abstract要約: コラボレーティブ・コンバット・エアクラフト(CCA)は、自律的な知能、監視、偵察ミッションを可能にするために計画されている。
これらのミッションは、モデルの不確実性と、安全でリアルタイムな意思決定の必要性によって、課題を提起する。
本稿では,CCA を用いた ISR ミッションに適した適応型マルコフ決定処理フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.7188280334580195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative Combat Aircraft (CCAs) are envisioned to enable autonomous Intelligence, Surveillance, and Reconnaissance (ISR) missions in contested environments, where adversaries may act strategically to deceive or evade detection. These missions pose challenges due to model uncertainty and the need for safe, real-time decision-making. Robust Markov Decision Processes (RMDPs) provide worst-case guarantees but are limited by static ambiguity sets that capture initial uncertainty without adapting to new observations. This paper presents an adaptive RMDP framework tailored to ISR missions with CCAs. We introduce a mission-specific formulation in which aircraft alternate between movement and sensing states. Adversarial tactics are modeled as a finite set of transition kernels, each capturing assumptions about how adversarial sensing or environmental conditions affect rewards. Our approach incrementally refines policies by eliminating inconsistent threat models, allowing agents to shift from conservative to aggressive behaviors while maintaining robustness. We provide theoretical guarantees showing that the adaptive planner converges as credible sets contract to the true threat and maintains safety under uncertainty. Experiments under Gaussian and non-Gaussian threat models across diverse network topologies show higher mission rewards and fewer exposure events compared to nominal and static robust planners.
- Abstract(参考訳): コラボレーティブ・コンバット・エアクラフト(CCAs)は、対戦環境における自律的な知能、監視、偵察(ISR)の任務を可能にするために計画されている。
これらのミッションは、モデルの不確実性と、安全でリアルタイムな意思決定の必要性によって、課題を提起する。
ロバスト・マルコフ決定過程(RMDP)は最悪の場合の保証を提供するが、新しい観測に適応することなく初期不確実性を捉える静的曖昧性セットによって制限される。
本稿では,CCA を用いた ISR ミッションに適した適応型 RMDP フレームワークを提案する。
本稿では,航空機が移動状態と感知状態とを交互に交互に行う,ミッション固有の定式化を提案する。
敵の戦術は有限の遷移カーネルとしてモデル化され、それぞれが敵の感知や環境条件が報酬にどう影響するかを仮定する。
当社のアプローチは、一貫性のない脅威モデルを排除し、堅牢性を維持しながら、エージェントが保守的な行動から攻撃的な行動に移行することによって、政策を段階的に改善する。
我々は,適応プランナが真の脅威に対する契約を締結し,不確実性の下で安全性を維持することにより,適応プランナが収束することを示す理論的保証を提供する。
多様なネットワークトポロジーにわたるガウス的および非ガウス的脅威モデルに基づく実験は、名目的で静的なプランナーと比較してミッション報酬が高く、露出イベントが少ないことを示している。
関連論文リスト
- Policy Disruption in Reinforcement Learning:Adversarial Attack with Large Language Models and Critical State Identification [8.292056374554162]
強化学習(Reinforcement Learning, RL)は、ロボット工学や自律運転などの分野で大きな成功を収めている。
既存のアプローチはしばしば環境やポリシーの変更に依存し、実用性を制限する。
本稿では,環境の変化を伴わずにターゲットポリシーを誘導し,準最適動作を出力する敵攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-07-24T05:52:06Z) - Steering No-Regret Agents in MFGs under Model Uncertainty [19.845081182511713]
本研究では,密度非依存遷移を伴う平均フィールドゲームにおけるステアリング報酬の設計について検討する。
我々は,エージェントの行動と所望の行動との累積的ギャップについて,サブ線形後悔の保証を確立する。
本研究は, 不確実な大人口システムにおいて, エージェントの操舵行動に有効な枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-12T12:02:02Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - On Minimizing Adversarial Counterfactual Error in Adversarial RL [18.044879441434432]
敵の騒音は、安全クリティカルなシナリオにおいて重大なリスクを生じさせる。
我々は,ACoE(Adversarial Counterfactual Error)と呼ばれる新しい目標を導入する。
本手法は, 対向RL問題に対処するための最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-07T08:14:24Z) - ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints [34.9739641898452]
本研究では、最適値とポリシーのニューラルネットワーク近似を学習することにより、信念空間におけるCC-POMDPを解くConstrainedZeroポリシーアルゴリズムを導入する。
その結果, 目標から安全制約を分離することで, 報酬とコストのバランスを最適化することなく, 目標となる安全レベルを達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-01T17:17:22Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。