論文の概要: Residue-Based Natural Language Adversarial Attack Detection
- arxiv url: http://arxiv.org/abs/2204.10192v1
- Date: Sun, 17 Apr 2022 17:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-23 10:10:48.711124
- Title: Residue-Based Natural Language Adversarial Attack Detection
- Title(参考訳): 残余に基づく自然言語逆攻撃検出
- Authors: Vyas Raina and Mark Gales
- Abstract要約: 本研究は、逆例を識別する「レジデント」に基づく簡易な文埋め込み型検出器を提案する。
多くのタスクにおいて、移植された画像ドメイン検出器と、最先端のNLP特定検出器の状態を上回ります。
- 参考スコア(独自算出の注目度): 1.4213973379473654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning based systems are susceptible to adversarial attacks, where a
small, imperceptible change at the input alters the model prediction. However,
to date the majority of the approaches to detect these attacks have been
designed for image processing systems. Many popular image adversarial detection
approaches are able to identify adversarial examples from embedding feature
spaces, whilst in the NLP domain existing state of the art detection approaches
solely focus on input text features, without consideration of model embedding
spaces. This work examines what differences result when porting these image
designed strategies to Natural Language Processing (NLP) tasks - these
detectors are found to not port over well. This is expected as NLP systems have
a very different form of input: discrete and sequential in nature, rather than
the continuous and fixed size inputs for images. As an equivalent model-focused
NLP detection approach, this work proposes a simple sentence-embedding
"residue" based detector to identify adversarial examples. On many tasks, it
out-performs ported image domain detectors and recent state of the art NLP
specific detectors.
- Abstract(参考訳): ディープラーニングベースのシステムは、入力における小さな、知覚不能な変化がモデル予測を変化させる、敵攻撃の影響を受けやすい。
しかし、これまでこれらの攻撃を検出する手法の大部分は画像処理システム用に設計されてきた。
多くの一般的な画像逆検出手法は、埋め込み特徴空間から敵の例を識別することができるが、NLP領域の既存の技術検出手法では、モデル埋め込み空間を考慮せずに入力テキスト特徴のみに焦点をあてている。
この研究は、これらのイメージ設計戦略を自然言語処理(nlp)タスクに移植すると、どのような違いが生じるかを調べます。
NLPシステムは、画像の連続的および固定的なサイズ入力ではなく、本質的に離散的でシーケンシャルな入力形式を持つため、これは期待できる。
等価なモデルに焦点をあてたnlp検出手法として,簡単な文埋め込み型"residue"ベースの検出器を提案する。
多くのタスクにおいて、移植された画像ドメイン検出器と、最先端のNLP特定検出器の状態を上回ります。
関連論文リスト
- Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文 参考訳(メタデータ) (2024-08-06T06:25:39Z) - Exploring the Adversarial Robustness of CLIP for AI-generated Image Detection [9.516391314161154]
比較言語-画像事前学習(CLIP)に基づく手法に着目し,AI生成画像検出器の対角的ロバスト性について検討した。
CLIPベースの検出器は、CNNベースの検出器と同様に、ホワイトボックス攻撃に対して脆弱である。
この分析は、より効果的な戦略を開発するのに役立つ法医学的検出器の特性に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-07-28T18:20:08Z) - Targeted Visualization of the Backbone of Encoder LLMs [46.453758431767724]
注意に基づく大規模言語モデル(LLMs)は、自然言語処理(NLP)における最先端技術である。
エンコーダモデルの成功にもかかわらず、私たちはこの作業に集中していますが、バイアスの問題や敵の攻撃に対する感受性など、いくつかのリスクも抱えています。
決定関数の一部を2次元のデータセットとともに視覚化するDeepViewのNLPドメインへの応用について検討する。
論文 参考訳(メタデータ) (2024-03-26T12:51:02Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - "That Is a Suspicious Reaction!": Interpreting Logits Variation to
Detect NLP Adversarial Attacks [0.2999888908665659]
敵攻撃は、現在の機械学習研究で直面する大きな課題である。
本研究は, 逆文例のモデルに依存しない検出法を提案する。
論文 参考訳(メタデータ) (2022-04-10T09:24:41Z) - Adversarially Robust One-class Novelty Detection [83.1570537254877]
既存のノベルティ検出器は敵の例に感受性があることが示される。
本稿では, 新規性検知器の潜伏空間を制御し, 敵に対する堅牢性を向上する防衛戦略を提案する。
論文 参考訳(メタデータ) (2021-08-25T10:41:29Z) - Exploiting Multi-Object Relationships for Detecting Adversarial Attacks
in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。
近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。
言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文 参考訳(メタデータ) (2021-08-19T00:52:10Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - CSI: Novelty Detection via Contrastive Learning on Distributionally
Shifted Instances [77.28192419848901]
コントラストシフトインスタンス (CSI) という,単純かつ効果的な手法を提案する。
従来のコントラスト学習法のように,サンプルを他の例と対比することに加えて,本トレーニング手法では,サンプルを分散シフトによる拡張と対比する。
本実験は, 種々の新規検出シナリオにおける本手法の優位性を実証する。
論文 参考訳(メタデータ) (2020-07-16T08:32:56Z) - Efficient detection of adversarial images [2.6249027950824506]
画像の画素値は外部攻撃者によって修正されるため、人間の目にはほとんど見えない。
本稿では,修正画像の検出を容易にする新しい前処理手法を提案する。
このアルゴリズムの適応バージョンでは、ランダムな数の摂動が適応的に選択される。
論文 参考訳(メタデータ) (2020-07-09T05:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。