論文の概要: Textual Manifold-based Defense Against Natural Language Adversarial
Examples
- arxiv url: http://arxiv.org/abs/2211.02878v1
- Date: Sat, 5 Nov 2022 11:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 16:19:00.201268
- Title: Textual Manifold-based Defense Against Natural Language Adversarial
Examples
- Title(参考訳): 自然言語に対するテキストマニフォールドによる防御
- Authors: Dang Minh Nguyen, Luu Anh Tuan
- Abstract要約: 逆のテキストは、それらの埋め込みが自然の多様体から分岐する傾向がある。
テキスト埋め込みを近似した埋め込み多様体に投影する防衛機構であるテクスチュアル・マニフォールド・ベース・ディフェンス(TMD)を提案する。
本手法は, 清潔な精度を損なうことなく, 従来よりも一貫して, 著しく優れていた。
- 参考スコア(独自算出の注目度): 10.140147080535222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies on adversarial images have shown that they tend to leave the
underlying low-dimensional data manifold, making them significantly more
challenging for current models to make correct predictions. This so-called
off-manifold conjecture has inspired a novel line of defenses against
adversarial attacks on images. In this study, we find a similar phenomenon
occurs in the contextualized embedding space induced by pretrained language
models, in which adversarial texts tend to have their embeddings diverge from
the manifold of natural ones. Based on this finding, we propose Textual
Manifold-based Defense (TMD), a defense mechanism that projects text embeddings
onto an approximated embedding manifold before classification. It reduces the
complexity of potential adversarial examples, which ultimately enhances the
robustness of the protected model. Through extensive experiments, our method
consistently and significantly outperforms previous defenses under various
attack settings without trading off clean accuracy. To the best of our
knowledge, this is the first NLP defense that leverages the manifold structure
against adversarial attacks. Our code is available at
\url{https://github.com/dangne/tmd}.
- Abstract(参考訳): 逆境画像に関する最近の研究は、基礎となる低次元データ多様体から離れる傾向があることを示しており、現在のモデルが正しい予測を行うのは非常に困難である。
このいわゆるオフマンフォールド予想は、画像に対する敵の攻撃に対する新しい防御線を刺激した。
本研究では, 言語モデルによって誘導される文脈的埋め込み空間において, 対角テキストが自然の多様体から分岐する傾向にある同様の現象が生じることを示した。
この知見に基づいて,テキスト埋め込みを分類前に近似埋め込み多様体に投影する防御機構であるテクスチャ多様体ベースの防御(tmd)を提案する。
これは潜在的な敵対例の複雑さを減らし、最終的に保護されたモデルの堅牢性を高める。
広範囲な実験を通じて, 本手法は, 清潔な精度を損なうことなく, 種々の攻撃条件下での防御性能を一貫して, 著しく向上させる。
我々の知る限りでは、これは多様体構造を敵攻撃に対して活用する最初のNLP防御である。
私たちのコードは \url{https://github.com/dangne/tmd} で利用可能です。
関連論文リスト
- DiffuseDef: Improved Robustness to Adversarial Attacks [38.34642687239535]
敵の攻撃は、事前訓練された言語モデルを使って構築されたシステムにとって重要な課題となる。
本稿では,拡散層をエンコーダと分類器のデノイザとして組み込んだDiffuseDefを提案する。
推測中、敵対的隠蔽状態はまずサンプルノイズと組み合わせられ、次に反復的に復調され、最後にアンサンブルされ、堅牢なテキスト表現が生成される。
論文 参考訳(メタデータ) (2024-06-28T22:36:17Z) - Attacking Byzantine Robust Aggregation in High Dimensions [13.932039723114299]
現代のニューラルネットワークやモデルを訓練するには、通常、高次元ベクトルのサンプルを平均化する必要がある。
ポジショニング攻撃は、モデルをトレーニングするのに使われる平均ベクトルを歪ませたりバイアスしたりし、モデルを特定のパターンを学習させたり、何か役に立つものを学ぶのを防いだりする。
我々は,HIDRAと呼ばれる新たな攻撃が,次元非依存バイアスの主張を覆す強力な防御の実現に有効であることを示す。
論文 参考訳(メタデータ) (2023-12-22T06:25:46Z) - Fooling the Textual Fooler via Randomizing Latent Representations [13.77424820701913]
敵語レベルの摂動はよく研究され効果的な攻撃戦略である。
本稿では、敵の例を生成する過程を複雑にすることを目的とする、軽量で攻撃に依存しない防御法を提案する。
本稿では,AdvFoolerの対人的単語レベル攻撃に対する最先端のロバスト性を実証的に示す。
論文 参考訳(メタデータ) (2023-10-02T06:57:25Z) - TextDefense: Adversarial Text Detection based on Word Importance Entropy [38.632552667871295]
NLPモデルの新たな逆例検出フレームワークであるTextDefenseを提案する。
実験の結果,TextDefenseは異なるアーキテクチャ,データセット,アタックメソッドに適用可能であることがわかった。
我々はNLPの敵攻撃と防衛方法の原理に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-02-12T11:12:44Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - ADDMU: Detection of Far-Boundary Adversarial Examples with Data and
Model Uncertainty Estimation [125.52743832477404]
AED(Adversarial Examples Detection)は、敵攻撃に対する重要な防御技術である。
本手法は, 正逆検出とFB逆検出の2種類の不確実性推定を組み合わせた新しい手法である textbfADDMU を提案する。
提案手法は,各シナリオにおいて,従来の手法よりも3.6と6.0のEmphAUC点が優れていた。
論文 参考訳(メタデータ) (2022-10-22T09:11:12Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Searching for an Effective Defender: Benchmarking Defense against
Adversarial Word Substitution [83.84968082791444]
ディープニューラルネットワークは、意図的に構築された敵の例に対して脆弱である。
ニューラルNLPモデルに対する敵対的単語置換攻撃を防御する様々な方法が提案されている。
論文 参考訳(メタデータ) (2021-08-29T08:11:36Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Adversarial Example Games [51.92698856933169]
Adrial Example Games (AEG) は、敵の例の製作をモデル化するフレームワークである。
AEGは、ある仮説クラスからジェネレータとアバーサを反対に訓練することで、敵の例を設計する新しい方法を提供する。
MNIST と CIFAR-10 データセットに対する AEG の有効性を示す。
論文 参考訳(メタデータ) (2020-07-01T19:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。