Fugu-MT 論文翻訳(概要): Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models

論文の概要: Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models

arxiv url: http://arxiv.org/abs/2305.01219v6
Date: Fri, 10 Nov 2023 11:28:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 18:15:28.044397
Title: Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models
Title（参考訳）: バックドア攻撃のトリガーとしてのプロンプト:言語モデルの脆弱性を調べる
Authors: Shuai Zhao, Jinming Wen, Luu Anh Tuan, Junbo Zhao, Jie Fu
Abstract要約: 本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
参考スコア（独自算出の注目度）: 41.1058288041033
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The prompt-based learning paradigm, which bridges the gap between pre-training and fine-tuning, achieves state-of-the-art performance on several NLP tasks, particularly in few-shot settings. Despite being widely applied, prompt-based learning is vulnerable to backdoor attacks. Textual backdoor attacks are designed to introduce targeted vulnerabilities into models by poisoning a subset of training samples through trigger injection and label modification. However, they suffer from flaws such as abnormal natural language expressions resulting from the trigger and incorrect labeling of poisoned samples. In this study, we propose ProAttack, a novel and efficient method for performing clean-label backdoor attacks based on the prompt, which uses the prompt itself as a trigger. Our method does not require external triggers and ensures correct labeling of poisoned samples, improving the stealthy nature of the backdoor attack. With extensive experiments on rich-resource and few-shot text classification tasks, we empirically validate ProAttack's competitive performance in textual backdoor attacks. Notably, in the rich-resource setting, ProAttack achieves state-of-the-art attack success rates in the clean-label backdoor attack benchmark without external triggers.
Abstract（参考訳）: 事前学習と微調整のギャップを埋めるプロンプトベースの学習パラダイムは、いくつかのNLPタスク、特に数ショット設定における最先端のパフォーマンスを実現する。広く適用されているにもかかわらず、プロンプトベースの学習はバックドア攻撃に対して脆弱である。テキストバックドア攻撃は、インジェクションインジェクションとラベル修正を通じてトレーニングサンプルのサブセットを汚染することにより、ターゲットとする脆弱性をモデルに導入するように設計されている。しかし、毒サンプルのトリガーや不正なラベル付けによる異常な自然言語表現などの欠陥に悩まされている。本研究では,プロンプト自体をトリガとして使用するプロンプトに基づいて,クリーンラベルバックドア攻撃を行う新規かつ効率的な手法であるproattackを提案する。本手法は外部からのトリガーを必要とせず、被毒サンプルの正しいラベル付けを保証し、バックドア攻撃のステルス性を改善する。リッチリソースおよび少数ショットテキスト分類タスクに関する広範な実験により、テキストバックドア攻撃におけるProAttackの競合性能を実証的に検証した。特に、リッチリソース環境では、ProAttackは外部トリガなしでクリーンラベルバックドア攻撃ベンチマークで最先端の攻撃成功率を達成する。

関連論文リスト

A Study of Backdoors in Instruction Fine-tuned Language Models [16.10608633005216]
バックドアのデータ中毒は、そのような攻撃の回避の性質のために深刻なセキュリティ上の懸念である。このようなバックドア攻撃は、反応の感情を変えたり、検閲に違反したり、過剰に拒否したり(合法的なクエリの検閲を呼び起こしたり)、偽のコンテンツを注入したり、ナンセンスな反応(幻覚)を引き起こす。
論文参考訳（メタデータ） (2024-06-12T00:01:32Z)
SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文参考訳（メタデータ） (2024-05-19T14:50:09Z)
Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文参考訳（メタデータ） (2023-12-31T06:43:36Z)
Large Language Models Are Better Adversaries: Exploring Generative Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文参考訳（メタデータ） (2023-10-28T06:11:07Z)
Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文参考訳（メタデータ） (2023-10-23T01:24:56Z)
Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文参考訳（メタデータ） (2022-06-03T21:44:43Z)
BITE: Textual Backdoor Attacks with Iterative Trigger Injection [24.76186072273438]
バックドア攻撃はNLPシステムにとって新たな脅威となっている。有害なトレーニングデータを提供することで、敵は被害者モデルに"バックドア"を埋め込むことができる。ターゲットラベルと「トリガーワード」のセットとの間に強い相関関係を確立するため、トレーニングデータを害するバックドアアタックであるBITEを提案する。
論文参考訳（メタデータ） (2022-05-25T11:58:38Z)
Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文参考訳（メタデータ） (2021-05-26T08:54:19Z)
Backdoor Smoothing: Demystifying Backdoor Attacks on Deep Neural Networks [25.23881974235643]
バックドア攻撃は、引き起こされたサンプルの周りでよりスムーズな決定関数を誘導することを示します。実験の結果,入力サンプルにトリガーを付加するとスムーズさが増加し,この現象はより成功した攻撃に対してより顕著であることがわかった。
論文参考訳（メタデータ） (2020-06-11T18:28:54Z)
Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文参考訳（メタデータ） (2020-04-09T17:19:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。