論文の概要: Repairing Adversarial Texts through Perturbation
- arxiv url: http://arxiv.org/abs/2201.02504v1
- Date: Wed, 29 Dec 2021 03:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-16 16:19:37.387690
- Title: Repairing Adversarial Texts through Perturbation
- Title(参考訳): 摂動による敵文の修復
- Authors: Guoliang Dong, Jingyi Wang, Jun Sun, Sudipta Chattopadhyay, Xinyu
Wang, Ting Dai, Jie Shi and Jin Song Dong
- Abstract要約: ニューラルネットワークは敵の摂動によって攻撃を受けることが知られている。
逆行性摂動は 逆行性訓練など 緩和法を適用した後も 可能。
本稿では,実行時に相手テキストを自動的に修復する手法を提案する。
- 参考スコア(独自算出の注目度): 11.65808514109149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is known that neural networks are subject to attacks through adversarial
perturbations, i.e., inputs which are maliciously crafted through perturbations
to induce wrong predictions. Furthermore, such attacks are impossible to
eliminate, i.e., the adversarial perturbation is still possible after applying
mitigation methods such as adversarial training. Multiple approaches have been
developed to detect and reject such adversarial inputs, mostly in the image
domain. Rejecting suspicious inputs however may not be always feasible or
ideal. First, normal inputs may be rejected due to false alarms generated by
the detection algorithm. Second, denial-of-service attacks may be conducted by
feeding such systems with adversarial inputs. To address the gap, in this work,
we propose an approach to automatically repair adversarial texts at runtime.
Given a text which is suspected to be adversarial, we novelly apply multiple
adversarial perturbation methods in a positive way to identify a repair, i.e.,
a slightly mutated but semantically equivalent text that the neural network
correctly classifies. Our approach has been experimented with multiple models
trained for natural language processing tasks and the results show that our
approach is effective, i.e., it successfully repairs about 80\% of the
adversarial texts. Furthermore, depending on the applied perturbation method,
an adversarial text could be repaired in as short as one second on average.
- Abstract(参考訳): ニューラルネットワークは、逆の摂動、すなわち間違った予測を誘発するために摂動によって悪意を持って作り出された入力によって攻撃を受けることが知られている。
さらに、このような攻撃は、敵の訓練のような緩和方法を適用した後も、敵の摂動を排除できない。
画像領域において、このような逆入力を検出して拒否する複数のアプローチが開発されている。
しかし、不審な入力を拒絶することは、常に実現可能あるいは理想であるとは限らない。
まず、検出アルゴリズムによって生成された誤報により、通常の入力は拒否される。
第二に、サービス拒否攻撃は、そのようなシステムに敵対的な入力を与えて行うことができる。
このギャップに対処するため,本研究では,実行時に相手テキストを自動的に修復する手法を提案する。
逆行性が疑われるテキストが与えられた場合,複数の逆行性摂動法を正の方法で適用することで,ニューラルネットワークが正しく分類する,わずかに変化するが意味的に等価なテキストの修正を識別する。
提案手法は自然言語処理タスクのために訓練された複数のモデルを用いて実験され,本手法が有効であることを示す。
さらに, 応用摂動法によっては, 平均1秒程度で逆行文を補修することが可能であった。
関連論文リスト
- Detecting Adversarial Attacks in Semantic Segmentation via Uncertainty Estimation: A Deep Analysis [12.133306321357999]
セグメンテーションのためのニューラルネットワークに対する敵攻撃を検出する不確実性に基づく手法を提案する。
我々は,不確実性に基づく敵攻撃の検出と様々な最先端ニューラルネットワークの詳細な解析を行う。
提案手法の有効性を示す数値実験を行った。
論文 参考訳(メタデータ) (2024-08-19T14:13:30Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - How adversarial attacks can disrupt seemingly stable accurate classifiers [76.95145661711514]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - Adversarial Training Should Be Cast as a Non-Zero-Sum Game [121.95628660889628]
対人訓練の2つのプレイヤーゼロサムパラダイムは、十分な強靭性を発揮できていない。
敵のトレーニングアルゴリズムでよく使われるサロゲートベースの緩和は、ロバスト性に関するすべての保証を無効にすることを示す。
対人訓練の新たな非ゼロサム二段階の定式化は、一致し、場合によっては最先端の攻撃よりも優れたフレームワークをもたらす。
論文 参考訳(メタデータ) (2023-06-19T16:00:48Z) - Uncertainty-based Detection of Adversarial Attacks in Semantic
Segmentation [16.109860499330562]
本稿では,セマンティックセグメンテーションにおける敵攻撃検出のための不確実性に基づくアプローチを提案する。
本研究は,複数種類の敵対的攻撃を対象とする摂動画像の検出能力を示す。
論文 参考訳(メタデータ) (2023-05-22T08:36:35Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Reverse engineering adversarial attacks with fingerprints from
adversarial examples [0.0]
逆例は典型的には、良性入力に追加される摂動を最適化する攻撃アルゴリズムによって生成される。
私たちは、これらの摂動を分類するために、ディープニューラルネットワークを訓練する"火で戦う"アプローチを取っています。
摂動をトレーニングしたResNet50モデルで99.4%の精度を実現した。
論文 参考訳(メタデータ) (2023-01-31T18:59:37Z) - Randomized Substitution and Vote for Textual Adversarial Example
Detection [6.664295299367366]
一連の研究により、自然なテキスト処理モデルが敵の例に弱いことが示されている。
我々はランダム化代用投票法(RS&V)と呼ばれる新しいテキスト対逆例検出法を提案する。
3つのベンチマークデータセットに対する実証的な評価は、RS&Vが既存の検出方法よりも、テキストの逆例をよりうまく検出できることを示している。
論文 参考訳(メタデータ) (2021-09-13T04:17:58Z) - Extracting Grammars from a Neural Network Parser for Anomaly Detection
in Unknown Formats [79.6676793507792]
強化学習は、ある未知のフォーマットで文を解析するために、人工知能を訓練する技術として、最近約束されている。
本稿では、ニューラルネットワークから生成規則を抽出し、これらの規則を用いて、ある文が名目か異常かを決定する手順を提案する。
論文 参考訳(メタデータ) (2021-07-30T23:10:24Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Adversarial Feature Desensitization [12.401175943131268]
本稿では,ドメイン適応分野からの洞察を基盤とした,対向ロバスト性に対する新しいアプローチを提案する。
提案手法は,入力の逆方向の摂動に対して不変な特徴を学習することを目的として,AFD(Adversarial Feature Desensitization)と呼ばれる。
論文 参考訳(メタデータ) (2020-06-08T14:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。