論文の概要: White-Box Multi-Objective Adversarial Attack on Dialogue Generation
- arxiv url: http://arxiv.org/abs/2305.03655v2
- Date: Mon, 8 May 2023 15:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 11:12:28.105452
- Title: White-Box Multi-Objective Adversarial Attack on Dialogue Generation
- Title(参考訳): 対話生成に対するホワイトボックス多目的攻撃
- Authors: Yufei Li, Zexin Li, Yingfan Gao, Cong Liu
- Abstract要約: 事前訓練されたトランスフォーマーは、最先端の対話生成(DG)システムで人気がある。
DGモデルを攻撃する主な課題の1つは、現在の文の摂動が応答精度を低下させることがほとんどできないことである。
DGSlowと呼ばれるホワイトボックスの多目的手法を提案する。
- 参考スコア(独自算出の注目度): 4.988701476885607
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pre-trained transformers are popular in state-of-the-art dialogue generation
(DG) systems. Such language models are, however, vulnerable to various
adversarial samples as studied in traditional tasks such as text
classification, which inspires our curiosity about their robustness in DG
systems. One main challenge of attacking DG models is that perturbations on the
current sentence can hardly degrade the response accuracy because the unchanged
chat histories are also considered for decision-making. Instead of merely
pursuing pitfalls of performance metrics such as BLEU, ROUGE, we observe that
crafting adversarial samples to force longer generation outputs benefits attack
effectiveness -- the generated responses are typically irrelevant, lengthy, and
repetitive. To this end, we propose a white-box multi-objective attack method
called DGSlow. Specifically, DGSlow balances two objectives -- generation
accuracy and length, via a gradient-based multi-objective optimizer and applies
an adaptive searching mechanism to iteratively craft adversarial samples with
only a few modifications. Comprehensive experiments on four benchmark datasets
demonstrate that DGSlow could significantly degrade state-of-the-art DG models
with a higher success rate than traditional accuracy-based methods. Besides,
our crafted sentences also exhibit strong transferability in attacking other
models.
- Abstract(参考訳): 事前訓練されたトランスフォーマーは、最先端の対話生成(DG)システムで人気がある。
しかし、このような言語モデルは、テキスト分類などの伝統的なタスクで研究されている様々な敵のサンプルに弱いため、DGシステムの堅牢性に対して我々の好奇心が刺激される。
DGモデルを攻撃する主な課題の1つは、変化のないチャット履歴も意思決定のために考慮されているため、現在の文の摂動は応答精度を低下させることができないことである。
bleuやrougeといったパフォーマンスメトリクスの落とし穴を追究する代わりに、より長い世代のアウトプットを強制するために逆さまのサンプルを作成することは、攻撃効果をもたらすことを観察します。
そこで本研究では,DGSlowと呼ばれるマルチオブジェクト攻撃手法を提案する。
具体的には、DGSlowは、勾配に基づく多目的最適化器を通じて、生成精度と長さの2つの目標をバランスさせ、適応的な探索機構を適用して、少数の修正しか行わない敵のサンプルを反復的に作成する。
4つのベンチマークデータセットに関する総合的な実験は、DGSlowが従来の精度ベースの手法よりも高い成功率で最先端のDGモデルを著しく劣化させることを示した。
また,本文は,他のモデルに対する攻撃にも強い伝達性を示す。
関連論文リスト
- Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - GE-AdvGAN: Improving the transferability of adversarial samples by
gradient editing-based adversarial generative model [69.71629949747884]
GAN(Generative Adversarial Networks)のような逆生成モデルは、様々な種類のデータを生成するために広く応用されている。
本研究では, GE-AdvGAN という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-11T16:43:16Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via
Latent Ensemble Attack [11.764601181046496]
生成モデルによって作成された悪意のある視覚コンテンツであるディープフェイクは、社会にますます有害な脅威をもたらす。
近年のディープフェイクの損傷を積極的に軽減するために, 逆方向の摂動を用いてディープフェイクモデルの出力を妨害する研究が進められている。
そこで本研究では,Latent Ensemble ATtack (LEAT) と呼ばれる簡易かつ効果的なディスラプション手法を提案する。
論文 参考訳(メタデータ) (2023-07-04T07:00:37Z) - Single Node Injection Label Specificity Attack on Graph Neural Networks
via Reinforcement Learning [8.666702832094874]
ブラックボックス回避設定においてターゲットノードを操作するために、単一の悪意あるノードを注入する勾配のない一般化可能な逆問題を提案する。
被害者モデルを直接クエリすることで、G$2$-SNIAは探索からパターンを学び、極めて限られた攻撃予算で多様な攻撃目標を達成する。
論文 参考訳(メタデータ) (2023-05-04T15:10:41Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Generalizable Black-Box Adversarial Attack with Meta Learning [54.196613395045595]
ブラックボックス攻撃では、ターゲットモデルのパラメータが不明であり、攻撃者はクエリのフィードバックに基づいて、クエリの予算に基づいて摂動を成功させることを目指している。
本稿では,実例レベルの逆転可能性という,過去の攻撃に対するフィードバック情報を活用することを提案する。
この2種類の逆転送性を持つフレームワークは,市販のクエリベースのアタック手法と自然に組み合わせて性能を向上させることができる。
論文 参考訳(メタデータ) (2023-01-01T07:24:12Z) - Adversarial example generation with AdaBelief Optimizer and Crop
Invariance [8.404340557720436]
敵攻撃は、安全クリティカルなアプリケーションにおいて堅牢なモデルを評価し、選択するための重要な方法である。
本稿では,AdaBelief Iterative Fast Gradient Method (ABI-FGM)とCrop-Invariant attack Method (CIM)を提案する。
我々の手法は、最先端の勾配に基づく攻撃法よりも成功率が高い。
論文 参考訳(メタデータ) (2021-02-07T06:00:36Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。