論文の概要: Illusory Attacks: Detectability Matters in Adversarial Attacks on
Sequential Decision-Makers
- arxiv url: http://arxiv.org/abs/2207.10170v3
- Date: Tue, 20 Jun 2023 17:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 05:57:25.477463
- Title: Illusory Attacks: Detectability Matters in Adversarial Attacks on
Sequential Decision-Makers
- Title(参考訳): 偶発的攻撃: 逐次的意思決定者に対する敵攻撃における検出可能性の問題
- Authors: Tim Franzmeyer, Stephen McAleer, Jo\~ao F. Henriques, Jakob N.
Foerster, Philip H.S. Torr, Adel Bibi, Christian Schroeder de Witt
- Abstract要約: 既存の強化学習エージェントに対する観測空間攻撃は共通の弱点を有することを示す。
提案手法は, 有効かつ統計的に検出不可能な, 逐次的意思決定者に対する新たな攻撃形態である完全照準攻撃を導入する。
従来の攻撃と比較すると、R攻撃は自動で検出するのがかなり難しいことが実証されている。
- 参考スコア(独自算出の注目度): 74.8408990716076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents deployed in the real world need to be robust against
adversarial attacks on sensory inputs. Robustifying agent policies requires
anticipating the strongest attacks possible. We demonstrate that existing
observation-space attacks on reinforcement learning agents have a common
weakness: while effective, their lack of temporal consistency makes them
detectable using automated means or human inspection. Detectability is
undesirable to adversaries as it may trigger security escalations. We introduce
perfect illusory attacks, a novel form of adversarial attack on sequential
decision-makers that is both effective and provably statistically undetectable.
We then propose the more versatile R-attacks, which result in observation
transitions that are consistent with the state-transition function of the
adversary-free environment and can be learned end-to-end. Compared to existing
attacks, we empirically find R-attacks to be significantly harder to detect
with automated methods, and a small study with human subjects suggests they are
similarly harder to detect for humans. We propose that undetectability should
be a central concern in the study of adversarial attacks on mixed-autonomy
settings.
- Abstract(参考訳): 現実世界に展開する自律エージェントは、感覚入力に対する敵対的な攻撃に対して堅牢でなければならない。
ロバスティフィケーション・エージェント・ポリシーは可能な限り最強の攻撃を予想する必要がある。
我々は、強化学習エージェントに対する既存の観測空間攻撃は共通の弱点があることを示し、その効果はあるものの、時間的整合性の欠如により、自動的な手段や人間の検査によって検出できることを示した。
検出性は、セキュリティエスカレーションを引き起こす可能性があるため、敵にとっては望ましくない。
提案手法は,有効かつ統計的に検出不可能な逐次的意思決定者に対する新たな攻撃形態である完全照準攻撃を導入する。
次に,より汎用的なr-アタックを提案する。これは逆境のない環境の状態遷移関数と一致し,エンドツーエンドで学習できる観察遷移をもたらす。
既存の攻撃と比較すると、r攻撃は自動的な方法で検出するのがかなり難しいと経験的に感じており、人間との小さな研究によると、人間にも検出が困難であることが示唆されている。
混合自律度設定に対する敵対的攻撃の研究において、非検出性は中心的な関心事であるべきである。
関連論文リスト
- Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。
修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。
効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文 参考訳(メタデータ) (2022-12-30T18:45:23Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - RobustSense: Defending Adversarial Attack for Secure Device-Free Human
Activity Recognition [37.387265457439476]
我々は、共通の敵攻撃を防御する新しい学習フレームワーク、RobustSenseを提案する。
本手法は,無線による人間行動認識と人物識別システムに有効である。
論文 参考訳(メタデータ) (2022-04-04T15:06:03Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Targeted Attack on Deep RL-based Autonomous Driving with Learned Visual
Patterns [18.694795507945603]
近年の研究では、敵の攻撃に対する深い強化学習を通じて学んだコントロールポリシーの脆弱性が実証されている。
本研究では, 物理的対象物に配置した視覚的学習パターンを用いて, 標的攻撃の実現可能性について検討する。
論文 参考訳(メタデータ) (2021-09-16T04:59:06Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Adversarial robustness via stochastic regularization of neural
activation sensitivity [24.02105949163359]
両防衛目標を同時に扱う新しい防衛機構を提案する。
損失面の勾配を平坦化し、逆例を見つけるのが難しくなる。
さらに、ジャコビアン正則化を利用して、正しく分類された入力から決定を遠ざける。
論文 参考訳(メタデータ) (2020-09-23T19:31:55Z) - Adversarial Feature Desensitization [12.401175943131268]
本稿では,ドメイン適応分野からの洞察を基盤とした,対向ロバスト性に対する新しいアプローチを提案する。
提案手法は,入力の逆方向の摂動に対して不変な特徴を学習することを目的として,AFD(Adversarial Feature Desensitization)と呼ばれる。
論文 参考訳(メタデータ) (2020-06-08T14:20:02Z) - RAID: Randomized Adversarial-Input Detection for Neural Networks [7.37305608518763]
本稿では,2次分類器を訓練し,良性入力と逆性入力のニューロン活性化値の違いを識別する,逆性画像検出のための新しい手法であるRAIDを提案する。
RAIDは、一般的な6つの攻撃に対して評価すると、最先端技術よりも信頼性が高く、効果的である。
論文 参考訳(メタデータ) (2020-02-07T13:27:29Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。