論文の概要: OrderBkd: Textual backdoor attack through repositioning
- arxiv url: http://arxiv.org/abs/2402.07689v2
- Date: Sat, 6 Apr 2024 21:41:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 01:16:32.370534
- Title: OrderBkd: Textual backdoor attack through repositioning
- Title(参考訳): OrderBkd:再配置によるテキストバックドア攻撃
- Authors: Irina Alekseevskaia, Konstantin Arkhipenko,
- Abstract要約: サードパーティのデータセットと事前トレーニングされた機械学習モデルは、NLPシステムに脅威をもたらす。
既存のバックドア攻撃は、トークンの挿入や文のパラフレーズなどのデータサンプルを毒殺する。
これまでの研究との大きな違いは、文中の2つの単語の配置をトリガーとして使うことです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The use of third-party datasets and pre-trained machine learning models poses a threat to NLP systems due to possibility of hidden backdoor attacks. Existing attacks involve poisoning the data samples such as insertion of tokens or sentence paraphrasing, which either alter the semantics of the original texts or can be detected. Our main difference from the previous work is that we use the reposition of a two words in a sentence as a trigger. By designing and applying specific part-of-speech (POS) based rules for selecting these tokens, we maintain high attack success rate on SST-2 and AG classification datasets while outperforming existing attacks in terms of perplexity and semantic similarity to the clean samples. In addition, we show the robustness of our attack to the ONION defense method. All the code and data for the paper can be obtained at https://github.com/alekseevskaia/OrderBkd.
- Abstract(参考訳): サードパーティのデータセットと事前トレーニングされた機械学習モデルの使用は、隠れたバックドア攻撃の可能性のため、NLPシステムに脅威をもたらす。
既存の攻撃は、トークンの挿入や文パラフレージングなどのデータサンプルを毒殺することを含み、元のテキストの意味論を変更するか、検出することができる。
これまでの研究との大きな違いは、文中の2つの単語の配置をトリガーとして使うことです。
SST-2 と AG の分類データセットに対して,これらのトークンを選択するための特定の部分音声(POS)ベースのルールを設計し,適用することにより,クリーンサンプルとパープレキシティとセマンティック類似性の観点から既存攻撃よりも高い攻撃成功率を保ちながら,高い攻撃成功率を維持する。
また,オニオン防御法に対する攻撃の堅牢性を示す。
論文のコードとデータは、https://github.com/alekseevskaia/OrderBkdで取得できる。
関連論文リスト
- Defense Against Syntactic Textual Backdoor Attacks with Token Substitution [15.496176148454849]
トレーニング段階では、慎重に選択されたトリガを犠牲者モデルに組み込んで、特定のクラスと同じトリガを含む入力を誤って予測する。
本稿では,構文ベースと特別なトークンベースのバックドア攻撃を効果的に対処する新しいオンライン防御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-04T22:48:57Z) - A Study of Backdoors in Instruction Fine-tuned Language Models [16.10608633005216]
バックドアのデータ中毒は、そのような攻撃の回避の性質のために深刻なセキュリティ上の懸念である。
このようなバックドア攻撃は、反応の感情を変えたり、検閲に違反したり、過剰に拒否したり(合法的なクエリの検閲を呼び起こしたり)、偽のコンテンツを注入したり、ナンセンスな反応(幻覚)を引き起こす。
論文 参考訳(メタデータ) (2024-06-12T00:01:32Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Protecting Model Adaptation from Trojans in the Unlabeled Data [120.42853706967188]
本稿では,よく設計された毒物標的データによるモデル適応に対するトロイの木馬攻撃の可能性について検討する。
本稿では,既存の適応アルゴリズムとシームレスに統合可能なDiffAdaptというプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - Post-Training Detection of Backdoor Attacks for Two-Class and
Multi-Attack Scenarios [22.22337220509128]
バックドア攻撃(BA)は、ディープニューラルネットワーク分類器に対する新たな脅威である。
本稿では,BPリバースエンジニアリングに基づく検出フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-20T22:21:38Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability
of the Embedding Layers in NLP Models [27.100909068228813]
最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティの脅威が明らかになった。
本稿では,1つの単語埋め込みベクトルを変更することで,データフリーな方法でモデルをハックできることを見出した。
感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。
論文 参考訳(メタデータ) (2021-03-29T12:19:45Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。