論文の概要: Saliency Attention and Semantic Similarity-Driven Adversarial Perturbation
- arxiv url: http://arxiv.org/abs/2406.19413v1
- Date: Tue, 18 Jun 2024 14:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-07 13:43:41.776870
- Title: Saliency Attention and Semantic Similarity-Driven Adversarial Perturbation
- Title(参考訳): 感性注意と意味的類似性駆動型対向摂動
- Authors: Hetvi Waghela, Jaydip Sen, Sneha Rakshit,
- Abstract要約: SASSP(Saliency Attention and Semantic similarity driven adversarial Perturbation)は、文脈的摂動の有効性を改善するために設計された。
提案手法は,単語選択と摂動のための3段階の戦略を取り入れたものである。
SASSPは高い攻撃成功率と低い単語摂動率を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce an enhanced textual adversarial attack method, known as Saliency Attention and Semantic Similarity driven adversarial Perturbation (SASSP). The proposed scheme is designed to improve the effectiveness of contextual perturbations by integrating saliency, attention, and semantic similarity. Traditional adversarial attack methods often struggle to maintain semantic consistency and coherence while effectively deceiving target models. Our proposed approach addresses these challenges by incorporating a three-pronged strategy for word selection and perturbation. First, we utilize a saliency-based word selection to prioritize words for modification based on their importance to the model's prediction. Second, attention mechanisms are employed to focus perturbations on contextually significant words, enhancing the attack's efficacy. Finally, an advanced semantic similarity-checking method is employed that includes embedding-based similarity and paraphrase detection. By leveraging models like Sentence-BERT for embedding similarity and fine-tuned paraphrase detection models from the Sentence Transformers library, the scheme ensures that the perturbed text remains contextually appropriate and semantically consistent with the original. Empirical evaluations demonstrate that SASSP generates adversarial examples that not only maintain high semantic fidelity but also effectively deceive state-of-the-art natural language processing models. Moreover, in comparison to the original scheme of contextual perturbation CLARE, SASSP has yielded a higher attack success rate and lower word perturbation rate.
- Abstract(参考訳): 本稿では,Saliency Attention と Semantic similarity driven adversarial Perturbation (SASSP) と呼ばれるテキスト対逆攻撃法を提案する。
提案手法は, サリエンシ, 注意, 意味的類似性を統合することにより, 文脈摂動の有効性を向上させる。
従来の敵攻撃法は、意味的一貫性と一貫性を維持するのに苦労するが、標的モデルを効果的に否定する。
提案手法は,単語選択と摂動のための3段階の戦略を取り入れることで,これらの課題に対処する。
まず,モデルの予測に重要度を反映した単語の優先順位付けを行うために,サリエンシに基づく単語選択を利用する。
第二に、注意機構は、文脈的に重要な単語に摂動を集中させ、攻撃の有効性を高めるために用いられる。
最後に、埋め込みに基づく類似度とパラフレーズ検出を含む高度な意味的類似度チェック手法を用いる。
Sentence-BERTのようなモデルをSentence Transformersライブラリの類似性や微調整されたパラフレーズ検出モデルに組み込むことで、乱れたテキストが元のテキストと文脈的に適切で意味的に整合していることを保証する。
経験的評価は、SASSPが高い意味的忠実性を維持するだけでなく、最先端の自然言語処理モデルを効果的に欺く敵対的な例を生成することを示した。
さらに、文脈摂動CLAREの当初のスキームと比較して、SASPはより高い攻撃成功率と低い単語摂動率を得た。
関連論文リスト
- COT: A Generative Approach for Hate Speech Counter-Narratives via Contrastive Optimal Transport [25.73474734479759]
本研究では, コントラッシブ・最適輸送に基づく新しい枠組みを提案する。
ターゲットインタラクションの維持と、反ナラティブの生成における多様化の促進という課題を効果的に解決する。
提案手法は,複数の側面から評価された現在の手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-18T06:24:26Z) - A Modified Word Saliency-Based Adversarial Attack on Text Classification Models [0.0]
本稿では,テキスト分類モデルを対象とした新たな逆攻撃手法を提案する。
The Modified Word Saliency-based Adversarial At-tack (MWSAA)は、セマンティックコヒーレンスを維持しながら分類モデルを誤解させる。
多様なテキスト分類データセットを用いて実証評価を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-03-17T18:39:14Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Adversarial Training for Improving Model Robustness? Look at Both
Prediction and Interpretation [21.594361495948316]
本稿では,FLAT という新しい特徴レベルの対角訓練手法を提案する。
FLATは、グローバルな単語の重要性を学ぶために、変分ワードマスクをニューラルネットワークに組み込んでいる。
FLATが予測と解釈の両方において頑健性を向上させる効果を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-23T20:04:14Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Generating Natural Language Attacks in a Hard Label Black Box Setting [3.52359746858894]
我々は、ハードラベルブラックボックス設定で自然言語処理モデルを攻撃する重要かつ困難なタスクを研究します。
本研究では, テキスト分類と関連タスクにおいて, 質の高い対比例を作成する意思決定に基づく攻撃戦略を提案する。
論文 参考訳(メタデータ) (2020-12-29T22:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。