論文の概要: Fundamental Limits of Man-in-the-Middle Attack Detection in Model-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.27592v2
- Date: Wed, 01 Apr 2026 02:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.605429
- Title: Fundamental Limits of Man-in-the-Middle Attack Detection in Model-Free Reinforcement Learning
- Title(参考訳): モデルレス強化学習における中間攻撃検出の基本限界
- Authors: Rishi Rani, Massimo Franceschetti,
- Abstract要約: サイバー物理システムにおける学習ベースマン・イン・ザ・ミドル(MITM)攻撃の問題点を考察する。
我々は、報酬関数を現在の状態とその後の状態の両方に依存するようにすることで、標準的なMDP攻撃モデルを洗練する。
検出可能な値偏差を最小限に抑える最適システム同定戦略を導出する。
- 参考スコア(独自算出の注目度): 2.9320341537404713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of learning-based man-in-the-middle (MITM) attacks in cyber-physical systems (CPS), and extend our previously proposed Bellman Deviation Detection (BDD) framework for model-free reinforcement learning (RL). We refine the standard MDP attack model by allowing the reward function to depend on both the current and subsequent states, thereby capturing reward variations induced by errors in the adversary's transition estimate. We also derive an optimal system-identification strategy for the adversary that minimizes detectable value deviations. Further, we prove that the agent's asymptotic learning time required to secure the system scales linearly with the adversary's learning time, and that this matches the optimal lower bound. Hence, the proposed detection scheme is order-optimal in detection efficiency. Finally, we extend the framework to asynchronous and intermittent attack scenarios, where reliable detection is preserved.
- Abstract(参考訳): 我々は,サイバー物理システム(CPS)における学習ベースマン・イン・ザ・ミドル(MITM)攻撃の問題点を考察し,従来提案していたモデルレス強化学習(RL)のためのベルマン偏差検出(BDD)フレームワークを拡張した。
我々は、報酬関数が現在の状態とその後の状態の両方に依存するようにすることで、標準的なMDP攻撃モデルを洗練し、敵の遷移推定における誤差によって引き起こされる報酬の変動を捉える。
また,検出可能な値偏差を最小限に抑えるシステム同定戦略も提案する。
さらに,システムの確保に要するエージェントの漸近学習時間は,相手の学習時間と線形にスケールし,最適下界と一致することを証明した。
したがって,提案手法は検出効率に最適である。
最後に、信頼性のある検出が保存される非同期かつ断続的な攻撃シナリオにフレームワークを拡張します。
関連論文リスト
- CS-GBA: A Critical Sample-based Gradient-guided Backdoor Attack for Offline Reinforcement Learning [7.5200963577855875]
オフライン強化学習(RL)は、静的データセットからのポリシー最適化を可能にするが、バックドア攻撃に対して本質的に脆弱である。
我々は,厳格な予算の下で高い盗難と破壊性を達成すべく,CS-GBA(Critical Sample-based Gradient-Guided Backdoor Attack)を提案する。
論文 参考訳(メタデータ) (2026-01-15T13:57:52Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - On the Adversarial Robustness of Learning-based Conformal Novelty Detection [10.58528988397402]
AdaDetect を用いた共形ノベルティ検出の対角的ロバスト性について検討した。
以上の結果から,高い検出力を維持しながらFDRを著しく増大させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-10-01T03:29:11Z) - Preliminary Investigation into Uncertainty-Aware Attack Stage Classification [81.28215542218724]
この研究は、不確実性の下での攻撃段階推論の問題に対処する。
Evidential Deep Learning (EDL) に基づく分類手法を提案し、ディリクレ分布のパラメータを可能な段階に出力することで予測の不確実性をモデル化する。
シミュレーション環境における予備実験により,提案モデルが精度良く攻撃の段階を推定できることが実証された。
論文 参考訳(メタデータ) (2025-08-01T06:58:00Z) - Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。
特に,攻撃目標は,モデル予測を特定の範囲に制限することである。
我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文 参考訳(メタデータ) (2025-06-05T08:29:19Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency [20.61046457594186]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では、悪意のあるテスト画像のフィルタリングを行うための、シンプルで効果的な入力レベルのバックドア検出(IBD-PSCと呼ばれる)を提案する。
論文 参考訳(メタデータ) (2024-05-16T03:19:52Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。