論文の概要: Effective and Imperceptible Adversarial Textual Attack via
Multi-objectivization
- arxiv url: http://arxiv.org/abs/2111.01528v4
- Date: Fri, 15 Dec 2023 03:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 20:06:48.289508
- Title: Effective and Imperceptible Adversarial Textual Attack via
Multi-objectivization
- Title(参考訳): 多目的化による効果的な非知覚的テキストアタック
- Authors: Shengcai Liu, Ning Lu, Wenjing Hong, Chao Qian, Ke Tang
- Abstract要約: 我々はHydraTextが、最近提案された攻撃アプローチよりも、競争力のある攻撃成功率と攻撃非受容性を一貫して達成していることを示す。
人間による評価では、HydraTextによって作られたAEsは人間によるテキストと区別がつかないことが示されている。
- 参考スコア(独自算出の注目度): 35.465844373469096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of adversarial textual attack has significantly grown over the last
few years, where the commonly considered objective is to craft adversarial
examples (AEs) that can successfully fool the target model. However, the
imperceptibility of attacks, which is also essential for practical attackers,
is often left out by previous studies. In consequence, the crafted AEs tend to
have obvious structural and semantic differences from the original
human-written text, making them easily perceptible. In this work, we advocate
leveraging multi-objectivization to address such issue. Specifically, we
reformulate the problem of crafting AEs as a multi-objective optimization
problem, where the attack imperceptibility is considered as an auxiliary
objective. Then, we propose a simple yet effective evolutionary algorithm,
dubbed HydraText, to solve this problem. To the best of our knowledge,
HydraText is currently the only approach that can be effectively applied to
both score-based and decision-based attack settings. Exhaustive experiments
involving 44237 instances demonstrate that HydraText consistently achieves
competitive attack success rates and better attack imperceptibility than the
recently proposed attack approaches. A human evaluation study also shows that
the AEs crafted by HydraText are more indistinguishable from human-written
text. Finally, these AEs exhibit good transferability and can bring notable
robustness improvement to the target model by adversarial training.
- Abstract(参考訳): 敵対的テキスト攻撃の分野は、ここ数年で著しく成長し、一般的には、ターゲットモデルをうまく騙すことのできる敵対的例(AE)を作成することを目的としている。
しかし、実際の攻撃者にも不可欠な攻撃の不可避性は、前回の研究では除外されることがしばしばある。
その結果、造形されたaesは、原文との明確な構造的および意味的な違いがあり、容易に認識できる。
本研究では,このような問題に対処するための多目的化の活用を提唱する。
具体的には,攻撃不可能性が補助目的と見なされる多目的最適化問題として,aesを製作する問題を再検討する。
そこで本研究では,HydraTextと呼ばれる単純な進化的アルゴリズムを提案する。
私たちの知る限りでは、HydraTextはスコアベースと意思決定ベースの攻撃設定の両方に効果的に適用できる唯一のアプローチです。
44237インスタンスを含む排他的実験により、HydraTextは、最近提案された攻撃アプローチよりも、一貫して競合的な攻撃成功率と攻撃不能性を達成している。
また,HydraText による AEs は人文テキストと区別がつかない。
最後に、これらのaesは転送性が良好であり、敵の訓練によってターゲットモデルに顕著な堅牢性改善をもたらすことができる。
関連論文リスト
- Asymmetric Bias in Text-to-Image Generation with Adversarial Attacks [21.914674640285337]
本稿では、攻撃成功率(ASR)に関連する要因の分析に焦点をあてる。
敵接尾辞と2つの勾配に基づく攻撃アルゴリズムを用いた新たな攻撃目標であるエンティティスワップを導入する。
敵の攻撃で成功確率が60%になる状況と、この確率が5%以下に低下する状況を見いだす。
論文 参考訳(メタデータ) (2023-12-22T05:10:32Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - An Extensive Study on Adversarial Attack against Pre-trained Models of
Code [14.948361027395748]
Transformer-based pre-trained code (PTMC) は広く利用されており、多くのミッションクリティカルなアプリケーションで最先端のパフォーマンスを実現している。
識別子の置換やコーディングスタイルの変換によって、敵の攻撃に弱い可能性がある。
本研究は,5つの対人攻撃アプローチを3つの観点から体系的に分析する。
論文 参考訳(メタデータ) (2023-11-13T18:48:54Z) - The Best Defense is Attack: Repairing Semantics in Textual Adversarial Examples [7.622122513456483]
反応摂動デフォーカス(Rapid)という新しいアプローチを導入する。
ラピッドは、敵の例の偽のラベルを識別し、敵の攻撃者を利用して敵の例のセマンティクスを修復するために、敵の検知器を使用している。
各種攻撃シナリオにおけるRapidの有効性を実証するために,4つの公開データセットを用いて大規模な実験を行った。
論文 参考訳(メタデータ) (2023-05-06T15:14:11Z) - Revisiting DeepFool: generalization and improvement [17.714671419826715]
我々は,有効性と計算効率のバランスを崩す新たな敵攻撃群を導入する。
提案手法は,大規模モデルのロバスト性の評価にも適している。
論文 参考訳(メタデータ) (2023-03-22T11:49:35Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - What You See is Not What the Network Infers: Detecting Adversarial
Examples Based on Semantic Contradiction [14.313178290347293]
敵対的な例(AE)は、ディープニューラルネットワーク(DNN)の安全クリティカルドメインへの応用に深刻な脅威をもたらす。
本稿では,AEの本質に基づいた新しいAE検出フレームワークを提案する。
ContraNetは、特にアダプティブアタックにおいて、既存のソリューションよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-01-24T13:15:31Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。