論文の概要: TrojFSP: Trojan Insertion in Few-shot Prompt Tuning
- arxiv url: http://arxiv.org/abs/2312.10467v1
- Date: Sat, 16 Dec 2023 14:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:16:11.036652
- Title: TrojFSP: Trojan Insertion in Few-shot Prompt Tuning
- Title(参考訳): TrojFSP: プロンプトチューニングでトロイの木馬が侵入
- Authors: Mengxin Zheng, Jiaqi Xue, Xun Chen, YanShan Wang, Qian Lou, and Lei
Jiang
- Abstract要約: トロイの木馬攻撃のような、いくつかのデータサンプルの迅速なチューニングに関するセキュリティ問題は、十分に研究されていない。
本手法は, 汚染試料数の等化を目的としたテクスタイトターゲットクラスシンク (TC-Shrink) 技術を開発した。
また, トリガー刺激による毒トロイの木馬の注意力を高めるために, テキストトロイジャン・トロイガー注意機能を導入した。
- 参考スコア(独自算出の注目度): 19.19786618766812
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Prompt tuning is one of the most effective solutions to adapting a fixed
pre-trained language model (PLM) for various downstream tasks, especially with
only a few input samples. However, the security issues, e.g., Trojan attacks,
of prompt tuning on a few data samples are not well-studied. Transferring
established data poisoning attacks directly to few-shot prompt tuning presents
multiple challenges. One significant issue is the \textit{poisoned imbalance
issue}, where non-target class samples are added to the target class, resulting
in a greater number of target-class samples compared to non-target class. While
this issue is not critical in regular tuning, it significantly hampers the
few-shot prompt tuning, making it difficult to simultaneously achieve a high
attack success rate (ASR) and maintain clean data accuracy (CDA). Additionally,
few-shot prompting is prone to overfitting in terms of both ASR and CDA. In
this paper, we introduce \textit{TrojFSP}, a method designed to address the
challenges. To solve the poisoned imbalance issue, we develop a
\textit{Target-Class Shrink (TC-Shrink)} technique, which aims to equalize the
number of poisoning samples. To combat overfitting, we employ a
\textit{Selective Token Poisoning} technique to boost attack performance.
Furthermore, we introduce a \textit{Trojan-Trigger Attention} objective
function to amplify the attention of the poisoned trojan prompt on triggers.
Experiments show that our TrojFSP achieves an ASR of over 99\% while
maintaining negligible decreases in CDA across various PLMs and datasets.
- Abstract(参考訳): プロンプトチューニングは、様々なダウンストリームタスク、特に少数の入力サンプルに固定事前訓練言語モデル(PLM)を適用するための最も効果的なソリューションの1つである。
しかしながら、いくつかのデータサンプルに対するプロンプトチューニングのトロイの木馬攻撃のようなセキュリティ問題は十分に研究されていない。
確立したデータ中毒攻撃を直接数発のプロンプトチューニングに転送することは、複数の課題をもたらす。
重要な問題のひとつは、ターゲットでないクラスサンプルがターゲットクラスに追加され、ターゲットでないクラスよりもターゲットクラスサンプルの数が多い、という、‘textit{poisoned im Balance issue’である。
この問題は定期的なチューニングでは重要ではないが、数発のプロンプトチューニングを著しく損なうため、高い攻撃成功率(ASR)とクリーンデータ精度(CDA)を同時に達成することは困難である。
さらに、ASRとCDAの両方の点において、ショットプロンプトは過度に適合する傾向にある。
本稿では,課題に対処するための方法であるtextit{TrojFSP}を紹介する。
そこで本研究では, 汚染物質数の等化を目的とした<textit{Target-Class Shrink>(TC-Shrink)}技術を開発した。
オーバーフィッティングと闘うために,攻撃性能を高めるためにtextit{Selective Token Poisoning} 技術を用いる。
さらに, トリガーによる毒トロイの木馬の注意を増幅する目的関数であるtextit{Trojan-Trigger Attention}を導入する。
実験により、TrojFSPは、様々なPLMおよびデータセットにわたるCDAの無視可能な減少を維持しながら、99\%以上のASRを達成することが示された。
関連論文リスト
- Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders [101.42201747763178]
未学習例(UE)は、正しくラベル付けされたトレーニング例に微妙な修正を加えることで、テストエラーの最大化を目指している。
我々の研究は、効率的な事前学習浄化法を構築するための、新しいゆがみ機構を提供する。
論文 参考訳(メタデータ) (2024-05-02T16:49:25Z) - Shortcuts Arising from Contrast: Effective and Covert Clean-Label Attacks in Prompt-Based Learning [40.130762098868736]
本稿では、アクティベーション値を活用し、トリガ設計とデータ選択戦略を統合して、より強力なショートカット機能を実現するContrastive Shortcut Injection (CSI) を提案する。
フルショットおよび少数ショットのテキスト分類タスクに関する広範な実験により、CSIの高有効性と高い盗聴性を低毒性率で実証的に検証した。
論文 参考訳(メタデータ) (2024-03-30T20:02:36Z) - Wasserstein distributional robustness of neural networks [9.79503506460041]
ディープニューラルネットワークは敵攻撃(AA)に弱いことが知られている
画像認識タスクでは、元の小さな摂動によって画像が誤分類される可能性がある。
本稿では,Wassersteinの分散ロバスト最適化(DRO)技術を用いて問題を再検討し,新しいコントリビューションを得た。
論文 参考訳(メタデータ) (2023-06-16T13:41:24Z) - TrojText: Test-time Invisible Textual Trojan Insertion [18.866093947145654]
自然言語処理(NLP)では、インテリジェントニューロンモデルはテキストトロイの木馬攻撃の影響を受けやすい。
本稿では,学習データなしでより効率的かつ費用対効果の高いテキスト・トロイの木版攻撃が可能かどうかを判定するTrojTextという手法を提案する。
提案手法はRepresentation-Logit Trojan Insertion (RLI)アルゴリズムと呼ばれ、大規模なトレーニングデータの代わりにより小さなサンプルテストデータを用いて、望ましい攻撃を実現する。
論文 参考訳(メタデータ) (2023-03-03T22:19:22Z) - ESTAS: Effective and Stable Trojan Attacks in Self-supervised Encoders
with One Target Unlabelled Sample [16.460288815336902]
ESTASは1つのターゲットクラスサンプルで99%の攻撃成功率(ASR)を達成する。
従来の研究と比較すると、ESTASは平均で30%のASR増加と8.3%の精度向上を達成した。
論文 参考訳(メタデータ) (2022-11-20T08:58:34Z) - Robust Few-shot Learning Without Using any Adversarial Samples [19.34427461937382]
高度なメタラーニング技術を用いて、数発の問題をロバストネスの目的と組み合わせる試みがいくつかなされている。
逆のサンプルを一切必要としない単純で効果的な代替案を提案する。
ヒトの認知的意思決定プロセスにインスパイアされ、ベースクラスデータとそれに対応する低周波サンプルの高レベル特徴マッチングを強制する。
論文 参考訳(メタデータ) (2022-11-03T05:58:26Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Targeted Attack against Deep Neural Networks via Flipping Limited Weight
Bits [55.740716446995805]
我々は,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。
私たちのゴールは、特定のサンプルをサンプル修正なしでターゲットクラスに誤分類することです。
整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成する。
論文 参考訳(メタデータ) (2021-02-21T03:13:27Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。