論文の概要: Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2408.11587v1
- Date: Wed, 21 Aug 2024 12:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 17:07:27.240262
- Title: Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks
- Title(参考訳): 大規模言語モデルは優れた攻撃者である:効率的で頑丈なテキストバックドア攻撃
- Authors: Ziqiang Li, Yueqi Zeng, Pengfei Xia, Lei Liu, Zhangjie Fu, Bin Li,
- Abstract要約: 本稿では,Large Language Models (LLMs) を活用した,効率的なテキストバックドア攻撃手法 EST-Bad を提案する。
私たちのEST-Badには、モデル固有の欠陥をトリガーとして最適化すること、LSMで密かにトリガーを注入すること、バックドアインジェクションの最も影響の大きいサンプルを慎重に選択することの3つの戦略が含まれています。
- 参考スコア(独自算出の注目度): 10.26810397377592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the burgeoning advancements in the field of natural language processing (NLP), the demand for training data has increased significantly. To save costs, it has become common for users and businesses to outsource the labor-intensive task of data collection to third-party entities. Unfortunately, recent research has unveiled the inherent risk associated with this practice, particularly in exposing NLP systems to potential backdoor attacks. Specifically, these attacks enable malicious control over the behavior of a trained model by poisoning a small portion of the training data. Unlike backdoor attacks in computer vision, textual backdoor attacks impose stringent requirements for attack stealthiness. However, existing attack methods meet significant trade-off between effectiveness and stealthiness, largely due to the high information entropy inherent in textual data. In this paper, we introduce the Efficient and Stealthy Textual backdoor attack method, EST-Bad, leveraging Large Language Models (LLMs). Our EST-Bad encompasses three core strategies: optimizing the inherent flaw of models as the trigger, stealthily injecting triggers with LLMs, and meticulously selecting the most impactful samples for backdoor injection. Through the integration of these techniques, EST-Bad demonstrates an efficient achievement of competitive attack performance while maintaining superior stealthiness compared to prior methods across various text classifier datasets.
- Abstract(参考訳): 自然言語処理(NLP)分野の飛躍的な進歩により、トレーニングデータの需要は大幅に増加した。
コスト削減のため、ユーザや企業がデータ収集の労働集約的なタスクをサードパーティにアウトソースすることが一般的になっている。
残念なことに、最近の研究は、特にNLPシステムをバックドア攻撃の可能性に晒すことで、このプラクティスにまつわる固有のリスクを明らかにしている。
具体的には、これらの攻撃はトレーニングデータのごく一部を汚染することにより、トレーニングされたモデルの振る舞いを悪意ある制御を可能にする。
コンピュータビジョンのバックドアアタックとは異なり、テキストバックドアアタックは盗難攻撃の厳しい要件を課している。
しかし,既存の攻撃手法は,テキストデータに固有の高情報エントロピーのため,有効性とステルス性の間に大きなトレードオフがある。
本稿では,Large Language Models (LLMs) を利用した,効率的なテキストバックドア攻撃手法 EST-Bad を提案する。
私たちのEST-Badには、モデル固有の欠陥をトリガーとして最適化すること、LSMで密かにトリガーを注入すること、バックドアインジェクションの最も影響の大きいサンプルを慎重に選択することの3つの戦略が含まれています。
これらの手法の統合により、EST-Badは、各種テキスト分類器データセットにおける先行手法と比較して、優れたステルス性を保ちながら、競合攻撃性能の効率的な達成を実証する。
関連論文リスト
- Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。
動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。
本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文 参考訳(メタデータ) (2024-10-16T18:44:22Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures [28.604839267949114]
人間の言語理解と複雑な問題解決のギャップを埋める大規模言語モデル(LLM)は、いくつかのNLPタスクで最先端のパフォーマンスを達成する。
研究は、言語モデルは潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox
Generative Model Trigger [11.622811907571132]
テキストバックドア攻撃は既存のシステムに現実的な脅威をもたらす。
GPT-4のような最先端の生成モデルでは、リライトを異常なレベルに押し上げるため、そのような攻撃はより検出しにくくなっている。
我々は、バックドア攻撃ツールとしてのブラックボックス生成モデルの役割を包括的に調査し、相対防衛戦略の研究の重要性を強調した。
論文 参考訳(メタデータ) (2023-04-27T19:26:25Z) - NCL: Textual Backdoor Defense Using Noise-augmented Contrastive Learning [14.537250979495596]
本研究では,テキストバックドア攻撃に対する防音学習フレームワークを提案する。
実験では,3種類のテキストバックドア攻撃を防御する手法の有効性を実証し,先行研究よりも優れていた。
論文 参考訳(メタデータ) (2023-03-03T07:07:04Z) - A Survey on Backdoor Attack and Defense in Natural Language Processing [18.29835890570319]
NLP分野におけるバックドア攻撃と防御の総合的な検討を行う。
ベンチマークデータセットを要約し、バックドア攻撃を防ぐために信頼できるシステムを設計するためのオープンな問題を指摘した。
論文 参考訳(メタデータ) (2022-11-22T02:35:12Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。