論文の概要: Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability
- arxiv url: http://arxiv.org/abs/2010.06812v4
- Date: Sat, 16 Jan 2021 09:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 14:22:59.627014
- Title: Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability
- Title(参考訳): Explain2Attack: クロスドメイン解釈によるテキストアタック
- Authors: Mahmoud Hossam, Trung Le, He Zhao, and Dinh Phung
- Abstract要約: 研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
- 参考スコア(独自算出の注目度): 18.92690624514601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training robust deep learning models for down-stream tasks is a critical
challenge. Research has shown that down-stream models can be easily fooled with
adversarial inputs that look like the training data, but slightly perturbed, in
a way imperceptible to humans. Understanding the behavior of natural language
models under these attacks is crucial to better defend these models against
such attacks. In the black-box attack setting, where no access to model
parameters is available, the attacker can only query the output information
from the targeted model to craft a successful attack. Current black-box
state-of-the-art models are costly in both computational complexity and number
of queries needed to craft successful adversarial examples. For real world
scenarios, the number of queries is critical, where less queries are desired to
avoid suspicion towards an attacking agent. In this paper, we propose
Explain2Attack, a black-box adversarial attack on text classification task.
Instead of searching for important words to be perturbed by querying the target
model, Explain2Attack employs an interpretable substitute model from a similar
domain to learn word importance scores. We show that our framework either
achieves or out-performs attack rates of the state-of-the-art models, yet with
lower queries cost and higher efficiency.
- Abstract(参考訳): 下流タスクのための堅牢なディープラーニングモデルのトレーニングは重要な課題です。
研究によると、ダウンストリームのモデルは、トレーニングデータに似ているがやや混乱した、人間には受け入れがたいような、逆の入力で簡単に騙すことができる。
これらの攻撃の下で自然言語モデルの振る舞いを理解することは、そのような攻撃に対してこれらのモデルをよりよく防御するために不可欠である。
モデルパラメータにアクセスできないブラックボックスアタック設定では、攻撃者はターゲットモデルからの出力情報のみをクエリして攻撃を成功させることができる。
現在のブラックボックスの最先端モデルは、計算の複雑さと、成功した逆の例を作るのに必要なクエリ数の両方においてコストがかかる。
実際のシナリオでは、攻撃するエージェントに対する疑念を避けるためにクエリの数が減少することが求められる。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
Explain2Attackは、ターゲットモデルをクエリすることで摂動する重要な単語を探す代わりに、同じドメインから解釈可能な代用モデルを用いて単語の重要度を学習する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
関連論文リスト
- Generalizable Black-Box Adversarial Attack with Meta Learning [54.196613395045595]
ブラックボックス攻撃では、ターゲットモデルのパラメータが不明であり、攻撃者はクエリのフィードバックに基づいて、クエリの予算に基づいて摂動を成功させることを目指している。
本稿では,実例レベルの逆転可能性という,過去の攻撃に対するフィードバック情報を活用することを提案する。
この2種類の逆転送性を持つフレームワークは,市販のクエリベースのアタック手法と自然に組み合わせて性能を向上させることができる。
論文 参考訳(メタデータ) (2023-01-01T07:24:12Z) - Query Efficient Cross-Dataset Transferable Black-Box Attack on Action
Recognition [99.29804193431823]
ブラックボックスの敵攻撃は、行動認識システムに現実的な脅威をもたらす。
本稿では,摂動を発生させることにより,これらの欠点に対処する新たな行動認識攻撃を提案する。
提案手法は,最先端のクエリベースおよび転送ベース攻撃と比較して,8%,12%の偽装率を達成する。
論文 参考訳(メタデータ) (2022-11-23T17:47:49Z) - TASA: Deceiving Question Answering Models by Twin Answer Sentences
Attack [93.50174324435321]
本稿では,質問応答(QA)モデルに対する敵対的攻撃手法であるTASA(Twin Answer Sentences Attack)を提案する。
TASAは、金の回答を維持しながら、流動的で文法的な逆境を生み出す。
論文 参考訳(メタデータ) (2022-10-27T07:16:30Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Query-free Black-box Adversarial Attacks on Graphs [37.88689315688314]
そこで,攻撃者は対象モデルについて知識がなく,クエリーアクセスも行わないグラフに対して,クエリフリーなブラックボックス攻撃を提案する。
対象モデルに対するフリップリンクの影響をスペクトル変化によって定量化できることを証明し,固有値摂動理論を用いて近似する。
その単純さとスケーラビリティのため、提案モデルは様々なグラフベースモデルで一般的なだけでなく、異なる知識レベルがアクセス可能であれば容易に拡張できる。
論文 参考訳(メタデータ) (2020-12-12T08:52:56Z) - Practical No-box Adversarial Attacks against DNNs [31.808770437120536]
我々は、攻撃者がモデル情報やトレーニングセットにアクセスしたり、モデルに問い合わせたりできない、ノンボックスの逆例を調査する。
非常に小さなデータセットでトレーニングを行うための3つのメカニズムを提案し、プロトタイプの再構築が最も効果的であることを示す。
提案手法は, システムの平均予測精度を15.40%に低下させ, 事前学習したArcfaceモデルから, 敵のサンプルを転送する攻撃と同等にする。
論文 参考訳(メタデータ) (2020-12-04T11:10:03Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer
Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。
また,移動学習モデルに対するブラックボックス攻撃手法を提案する。
ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文 参考訳(メタデータ) (2020-08-25T15:04:32Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。