論文の概要: TrojFST: Embedding Trojans in Few-shot Prompt Tuning
- arxiv url: http://arxiv.org/abs/2312.10467v2
- Date: Thu, 25 Jan 2024 15:51:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 17:26:43.768495
- Title: TrojFST: Embedding Trojans in Few-shot Prompt Tuning
- Title(参考訳): TrojFST:トロイの木馬を数発のプロンプトチューニングに埋め込む
- Authors: Mengxin Zheng, Jiaqi Xue, Xun Chen, YanShan Wang, Qian Lou, and Lei
Jiang
- Abstract要約: 数発のプロンプトチューニングのフレームワーク内でのバックドアアタックのためのTrojFSTを紹介する。
TrojFSTは、バランスの取れた毒の学習、選択的トークン中毒、トロイの木馬の注意の3つのモジュールから構成される。
これまでのプロンプトベースのバックドア攻撃と比較して、TrojFSTは大幅に改善されている。
- 参考スコア(独自算出の注目度): 19.19786618766812
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Prompt-tuning has emerged as a highly effective approach for adapting a
pre-trained language model (PLM) to handle new natural language processing
tasks with limited input samples. However, the success of prompt-tuning has led
to adversaries attempting backdoor attacks against this technique. Previous
prompt-based backdoor attacks faced challenges when implemented through
few-shot prompt-tuning, requiring either full-model fine-tuning or a large
training dataset. We observe the difficulty in constructing a prompt-based
backdoor using few-shot prompt-tuning, which involves freezing the PLM and
tuning a soft prompt with a restricted set of input samples. This approach
introduces an imbalanced poisoned dataset, making it susceptible to overfitting
and lacking attention awareness. To address these challenges, we introduce
TrojFST for backdoor attacks within the framework of few-shot prompt-tuning.
TrojFST comprises three modules: balanced poison learning, selective token
poisoning, and trojan-trigger attention. In comparison to previous prompt-based
backdoor attacks, TrojFST demonstrates significant improvements, enhancing ASR
$> 9\%$ and CDA by $> 4\%$ across various PLMs and a diverse set of downstream
tasks.
- Abstract(参考訳): プロンプトチューニングは、新しい自然言語処理タスクを限られた入力サンプルで処理するために事前学習言語モデル(plm)を適用するための非常に効果的なアプローチとして登場した。
しかし、プロンプトチューニングの成功は、この手法に対するバックドア攻撃を試みる敵につながった。
これまでのプロンプトベースのバックドア攻撃は、数発のプロンプトチューニングによって実装される場合、フルモデルの微調整か、大規模なトレーニングデータセットが必要になる。
PLMを凍結し、ソフトプロンプトに制限された入力サンプルを調整し、数発のプロンプトチューニングを用いてプロンプトベースのバックドアを構築することの難しさを観察する。
このアプローチは、不均衡な有毒なデータセットを導入し、過度な適合と注意力の欠如を許容する。
これらの課題に対処するため,我々は,少数ショットプロンプトチューニングのフレームワーク内でバックドア攻撃を行うためのtrojfstを導入する。
TrojFSTは、バランスの取れた毒の学習、選択的トークン中毒、トロイの木馬の注意の3つのモジュールから構成される。
これまでのプロンプトベースのバックドア攻撃と比較して、TrojFSTは、ASR $> 9\%$とCDAを、さまざまなPLMとさまざまな下流タスクで4\%$に拡張するなど、大幅な改善を示している。
関連論文リスト
- Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders [101.42201747763178]
未学習例(UE)は、正しくラベル付けされたトレーニング例に微妙な修正を加えることで、テストエラーの最大化を目指している。
我々の研究は、効率的な事前学習浄化法を構築するための、新しいゆがみ機構を提供する。
論文 参考訳(メタデータ) (2024-05-02T16:49:25Z) - Shortcuts Arising from Contrast: Effective and Covert Clean-Label Attacks in Prompt-Based Learning [40.130762098868736]
本稿では、アクティベーション値を活用し、トリガ設計とデータ選択戦略を統合して、より強力なショートカット機能を実現するContrastive Shortcut Injection (CSI) を提案する。
フルショットおよび少数ショットのテキスト分類タスクに関する広範な実験により、CSIの高有効性と高い盗聴性を低毒性率で実証的に検証した。
論文 参考訳(メタデータ) (2024-03-30T20:02:36Z) - Wasserstein distributional robustness of neural networks [9.79503506460041]
ディープニューラルネットワークは敵攻撃(AA)に弱いことが知られている
画像認識タスクでは、元の小さな摂動によって画像が誤分類される可能性がある。
本稿では,Wassersteinの分散ロバスト最適化(DRO)技術を用いて問題を再検討し,新しいコントリビューションを得た。
論文 参考訳(メタデータ) (2023-06-16T13:41:24Z) - TrojText: Test-time Invisible Textual Trojan Insertion [18.866093947145654]
自然言語処理(NLP)では、インテリジェントニューロンモデルはテキストトロイの木馬攻撃の影響を受けやすい。
本稿では,学習データなしでより効率的かつ費用対効果の高いテキスト・トロイの木版攻撃が可能かどうかを判定するTrojTextという手法を提案する。
提案手法はRepresentation-Logit Trojan Insertion (RLI)アルゴリズムと呼ばれ、大規模なトレーニングデータの代わりにより小さなサンプルテストデータを用いて、望ましい攻撃を実現する。
論文 参考訳(メタデータ) (2023-03-03T22:19:22Z) - ESTAS: Effective and Stable Trojan Attacks in Self-supervised Encoders
with One Target Unlabelled Sample [16.460288815336902]
ESTASは1つのターゲットクラスサンプルで99%の攻撃成功率(ASR)を達成する。
従来の研究と比較すると、ESTASは平均で30%のASR増加と8.3%の精度向上を達成した。
論文 参考訳(メタデータ) (2022-11-20T08:58:34Z) - Robust Few-shot Learning Without Using any Adversarial Samples [19.34427461937382]
高度なメタラーニング技術を用いて、数発の問題をロバストネスの目的と組み合わせる試みがいくつかなされている。
逆のサンプルを一切必要としない単純で効果的な代替案を提案する。
ヒトの認知的意思決定プロセスにインスパイアされ、ベースクラスデータとそれに対応する低周波サンプルの高レベル特徴マッチングを強制する。
論文 参考訳(メタデータ) (2022-11-03T05:58:26Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Targeted Attack against Deep Neural Networks via Flipping Limited Weight
Bits [55.740716446995805]
我々は,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。
私たちのゴールは、特定のサンプルをサンプル修正なしでターゲットクラスに誤分類することです。
整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成する。
論文 参考訳(メタデータ) (2021-02-21T03:13:27Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。