論文の概要: Certified Robustness Against Natural Language Attacks by Causal
Intervention
- arxiv url: http://arxiv.org/abs/2205.12331v2
- Date: Thu, 26 May 2022 09:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 10:35:39.997542
- Title: Certified Robustness Against Natural Language Attacks by Causal
Intervention
- Title(参考訳): 因果介入による自然言語攻撃に対する認証ロバスト性
- Authors: Haiteng Zhao, Chang Ma*, Xinshuai Dong, Anh Tuan Luu, Zhi-Hong Deng,
Hanwang Zhang
- Abstract要約: Causal Intervention by Semantic Smoothing (CISS)は、自然言語攻撃に対する堅牢性に向けた新しい枠組みである。
CISSは単語置換攻撃に対して確実に堅牢であり、未知の攻撃アルゴリズムによって摂動が強化されたとしても経験的に堅牢である。
- 参考スコア(独自算出の注目度): 61.62348826831147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models have achieved great success in many fields, yet they are
vulnerable to adversarial examples. This paper follows a causal perspective to
look into the adversarial vulnerability and proposes Causal Intervention by
Semantic Smoothing (CISS), a novel framework towards robustness against natural
language attacks. Instead of merely fitting observational data, CISS learns
causal effects p(y|do(x)) by smoothing in the latent semantic space to make
robust predictions, which scales to deep architectures and avoids tedious
construction of noise customized for specific attacks. CISS is provably robust
against word substitution attacks, as well as empirically robust even when
perturbations are strengthened by unknown attack algorithms. For example, on
YELP, CISS surpasses the runner-up by 6.7% in terms of certified robustness
against word substitutions, and achieves 79.4% empirical robustness when
syntactic attacks are integrated.
- Abstract(参考訳): ディープラーニングモデルは多くの分野で大きな成功を収めてきたが、敵の例には弱い。
本稿では,敵対的脆弱性を検討するための因果的視点に従い,自然言語攻撃に対する堅牢性に向けた新たな枠組みであるセマンティック・スムーシング(CISS)による因果的介入を提案する。
単に観測データを調整するのではなく、CISSは潜伏意味空間を滑らかにすることで因果効果p(y|do(x))を学び、より深いアーキテクチャにスケールし、特定の攻撃用にカスタマイズされたノイズの退屈な構築を避ける。
CISSは単語置換攻撃に対して確実に堅牢であり、未知の攻撃アルゴリズムによって摂動が強化されたとしても経験的に堅牢である。
例えば、YELPでは、CISSは単語置換に対する認証された堅牢性の観点から6.7%超え、構文攻撃が統合されると79.4%の実証的堅牢性を達成する。
関連論文リスト
- A Systematic Evaluation of Adversarial Attacks against Speech Emotion Recognition Models [6.854732863866882]
音声感情認識(SER)は近年,様々な分野に応用される可能性から,常に注目を集めている。
近年の研究では、ディープラーニングモデルは敵の攻撃に弱いことが示されている。
論文 参考訳(メタデータ) (2024-04-29T09:00:32Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Fooling the Textual Fooler via Randomizing Latent Representations [13.77424820701913]
敵語レベルの摂動はよく研究され効果的な攻撃戦略である。
本稿では、敵の例を生成する過程を複雑にすることを目的とする、軽量で攻撃に依存しない防御法を提案する。
本稿では,AdvFoolerの対人的単語レベル攻撃に対する最先端のロバスト性を実証的に示す。
論文 参考訳(メタデータ) (2023-10-02T06:57:25Z) - Context-aware Adversarial Attack on Named Entity Recognition [15.049160192547909]
本研究では,文脈対応型対向攻撃法について検討し,モデルのロバスト性について検討する。
具体的には、エンティティを認識するために最も情報に富む単語を摂動し、敵の例を作成することを提案する。
実験と分析により,本手法は強いベースラインよりも間違った予測を下すのに有効であることが示された。
論文 参考訳(メタデータ) (2023-09-16T14:04:23Z) - Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks [39.51297217854375]
ランダムな平滑化に基づく自然言語処理(NLP)のための信頼性の高いロバストネスフレームワークであるText-CRSを提案する。
テキストCRSは、4つの異なる単語レベルの対数操作すべてに対処でき、精度が大幅に向上することを示す。
また,同義語置換攻撃に対する最先端認証よりも,単語レベルの4つの操作の精度と半径に関する最初のベンチマークも提供する。
論文 参考訳(メタデータ) (2023-07-31T13:08:16Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Towards Robustness Against Natural Language Word Substitutions [87.56898475512703]
単語置換に対するロバスト性は、意味論的に類似した単語を置換として、明確に定義され広く受け入れられる形式である。
従来の防衛方法は、$l$-ball または hyper-rectangle を用いてベクトル空間における単語置換をキャプチャする。
論文 参考訳(メタデータ) (2021-07-28T17:55:08Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。