論文の概要: Improved and Efficient Text Adversarial Attacks using Target Information
- arxiv url: http://arxiv.org/abs/2104.13484v1
- Date: Tue, 27 Apr 2021 21:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 13:03:00.502860
- Title: Improved and Efficient Text Adversarial Attacks using Target Information
- Title(参考訳): ターゲット情報を用いたテキスト敵攻撃の高性能化
- Authors: Mahmoud Hossam, Trung Le, He Zhao, Viet Huynh, Dinh Phung
- Abstract要約: ブラックボックス設定における自然言語モデルの逆例の研究への関心が高まっている。
以前の高価な検索ではなく、解釈可能な学習によって単語のランク付けを学ぶ新しいアプローチが導入された。
このアプローチを使用する主な利点は、最先端のメソッドに匹敵する攻撃率を達成できるが、高速でクエリが少ないことである。
- 参考スコア(独自算出の注目度): 34.50272230153329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been recently a growing interest in studying adversarial examples
on natural language models in the black-box setting. These methods attack
natural language classifiers by perturbing certain important words until the
classifier label is changed. In order to find these important words, these
methods rank all words by importance by querying the target model word by word
for each input sentence, resulting in high query inefficiency. A new
interesting approach was introduced that addresses this problem through
interpretable learning to learn the word ranking instead of previous expensive
search. The main advantage of using this approach is that it achieves
comparable attack rates to the state-of-the-art methods, yet faster and with
fewer queries, where fewer queries are desirable to avoid suspicion towards the
attacking agent. Nonetheless, this approach sacrificed the useful information
that could be leveraged from the target classifier for that sake of query
efficiency. In this paper we study the effect of leveraging the target model
outputs and data on both attack rates and average number of queries, and we
show that both can be improved, with a limited overhead of additional queries.
- Abstract(参考訳): 近年,ブラックボックス環境における自然言語モデルの逆例の研究への関心が高まっている。
これらの手法は、分類器ラベルを変更するまで特定の重要な単語を摂動することで自然言語分類器を攻撃する。
これらの重要な単語を見つけるために、これらの手法は、各入力文の単語ごとに対象のモデル単語を問合せすることで、全ての単語を重要度でランク付けする。
従来の高価な検索ではなく、単語ランキングを学習するための解釈学習を通じてこの問題に対処する新たな興味深いアプローチが導入された。
このアプローチを使用する主な利点は、最先端のメソッドと同等の攻撃率を達成できるが、より高速でクエリが少なく、攻撃するエージェントに対する疑念を避けるためにクエリが少ないことである。
それでもこのアプローチは、クエリ効率のためにターゲット分類器から活用できる有用な情報を犠牲にした。
本稿では,ターゲットモデル出力とデータの利用が,攻撃率と平均クエリ数の両方に与える影響について検討し,追加クエリのオーバーヘッドを限定して改善可能であることを示す。
関連論文リスト
- IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Mitigating Word Bias in Zero-shot Prompt-based Classifiers [55.60306377044225]
一致したクラス先行は、オラクルの上界性能と強く相関していることを示す。
また,NLPタスクに対するプロンプト設定において,一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2023-09-10T10:57:41Z) - LimeAttack: Local Explainable Method for Textual Hard-Label Adversarial
Attack [3.410883081705873]
本稿では,LimeAttackという新しいハードラベル攻撃アルゴリズムを提案する。
LimeAttackは既存のハードラベル攻撃と比較して攻撃性能が良いことを示す。
LimeAttackによって作られた敵の例は高度に伝達可能であり、敵の訓練におけるモデルロバスト性を効果的に改善する。
論文 参考訳(メタデータ) (2023-08-01T06:30:37Z) - Automatic Counterfactual Augmentation for Robust Text Classification
Based on Word-Group Search [12.894936637198471]
一般に、ラベルと表面的関連を生じると、キーワードはショートカットと見なされ、結果として誤った予測となる。
キーワードの組み合わせの因果効果を捉え,予測に最も影響を与える組み合わせを注文する,新しいWord-Groupマイニング手法を提案する。
提案手法は,効率的なポストホック解析とビームサーチに基づいて,マイニング効果の確保と複雑さの低減を図っている。
論文 参考訳(メタデータ) (2023-07-01T02:26:34Z) - Extending an Event-type Ontology: Adding Verbs and Classes Using
Fine-tuned LLMs Suggestions [0.0]
語彙拡張タスクに先進的な機械学習手法を用いて事前アノテートしたデータについて検討した。
自動スコアと人間のアノテーションの相関について検討した。
相関性は強いが, アノテーションの固有性に対する影響は, ほぼ線形性から緩やかである。
論文 参考訳(メタデータ) (2023-06-03T14:57:47Z) - Query Efficient Cross-Dataset Transferable Black-Box Attack on Action
Recognition [99.29804193431823]
ブラックボックスの敵攻撃は、行動認識システムに現実的な脅威をもたらす。
本稿では,摂動を発生させることにより,これらの欠点に対処する新たな行動認識攻撃を提案する。
提案手法は,最先端のクエリベースおよび転送ベース攻撃と比較して,8%,12%の偽装率を達成する。
論文 参考訳(メタデータ) (2022-11-23T17:47:49Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - The Application of Active Query K-Means in Text Classification [0.0]
アクティブ・ラーニング(Active Learning)は、ラベルのない大量のデータを扱う最先端の機械学習アプローチである。
従来の教師なしk平均クラスタリングは、この研究で最初に半教師付きバージョンに修正される。
また,Penalized Min-Max-Selectionを用いて,アルゴリズムをさらにアクティブな学習シナリオに拡張する試みを行った。
中国のニュースデータセットでテストした結果、トレーニングのコストを下げながら精度が一貫した向上を示した。
論文 参考訳(メタデータ) (2021-07-16T03:06:35Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。