論文の概要: ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox
Generative Model Trigger
- arxiv url: http://arxiv.org/abs/2304.14475v1
- Date: Thu, 27 Apr 2023 19:26:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 16:06:28.809257
- Title: ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox
Generative Model Trigger
- Title(参考訳): 攻撃ツールとしてのChatGPT:Blackbox生成モデルトリガーによるテキストバックドア攻撃
- Authors: Jiazhao Li, Yijin Yang, Zhuofeng Wu, V.G. Vinod Vydiswaran, Chaowei
Xiao
- Abstract要約: テキストバックドア攻撃は既存のシステムに現実的な脅威をもたらす。
GPT-4のような最先端の生成モデルでは、リライトを異常なレベルに押し上げるため、そのような攻撃はより検出しにくくなっている。
我々は、バックドア攻撃ツールとしてのブラックボックス生成モデルの役割を包括的に調査し、相対防衛戦略の研究の重要性を強調した。
- 参考スコア(独自算出の注目度): 11.622811907571132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual backdoor attacks pose a practical threat to existing systems, as they
can compromise the model by inserting imperceptible triggers into inputs and
manipulating labels in the training dataset. With cutting-edge generative
models such as GPT-4 pushing rewriting to extraordinary levels, such attacks
are becoming even harder to detect. We conduct a comprehensive investigation of
the role of black-box generative models as a backdoor attack tool, highlighting
the importance of researching relative defense strategies. In this paper, we
reveal that the proposed generative model-based attack, BGMAttack, could
effectively deceive textual classifiers. Compared with the traditional attack
methods, BGMAttack makes the backdoor trigger less conspicuous by leveraging
state-of-the-art generative models. Our extensive evaluation of attack
effectiveness across five datasets, complemented by three distinct human
cognition assessments, reveals that Figure 4 achieves comparable attack
performance while maintaining superior stealthiness relative to baseline
methods.
- Abstract(参考訳): テキストによるバックドア攻撃は、入力に不可避なトリガーを挿入し、トレーニングデータセット内のラベルを操作することで、既存のシステムにとって現実的な脅威となる。
gpt-4のような最先端の生成モデルによって、このような攻撃は検出がさらに難しくなっている。
バックドア攻撃ツールとしてのブラックボックス生成モデルの役割を包括的に調査し、相対防衛戦略の研究の重要性を強調した。
本稿では,BGMAttackという生成モデルに基づく攻撃が,テキスト分類器を効果的に騙すことを明らかにする。
従来の攻撃方法と比較すると、BGMAttackは最先端の生成モデルを活用することでバックドアのトリガーを目立たなくする。
3つの異なる人間認知評価によって補完される5つのデータセットにわたる攻撃効果の広範な評価により、図4は、ベースラインメソッドと比較して優れたステルス性を維持しながら、同等の攻撃性能を達成できることが分かりました。
関連論文リスト
- Evaluating the Robustness of LiDAR Point Cloud Tracking Against Adversarial Attack [6.101494710781259]
本稿では,3次元物体追跡の文脈において,敵攻撃を行うための統一的なフレームワークを提案する。
ブラックボックス攻撃のシナリオに対処するために,新たなトランスファーベースアプローチであるTarget-aware Perturbation Generation (TAPG)アルゴリズムを導入する。
実験の結果,ブラックボックスとホワイトボックスの両方の攻撃を受けた場合,高度な追跡手法に重大な脆弱性があることが判明した。
論文 参考訳(メタデータ) (2024-10-28T10:20:38Z) - Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks [10.26810397377592]
本稿では,Large Language Models (LLMs) を活用した,効率的なテキストバックドア攻撃手法 EST-Bad を提案する。
私たちのEST-Badには、モデル固有の欠陥をトリガーとして最適化すること、LSMで密かにトリガーを注入すること、バックドアインジェクションの最も影響の大きいサンプルを慎重に選択することの3つの戦略が含まれています。
論文 参考訳(メタデータ) (2024-08-21T12:50:23Z) - A Practical Trigger-Free Backdoor Attack on Neural Networks [33.426207982772226]
トレーニングデータへのアクセスを必要としないトリガーフリーのバックドア攻撃を提案する。
具体的には、悪意のあるデータの概念を攻撃者特定クラスの概念に組み込んだ、新しい微調整アプローチを設計する。
提案した攻撃の有効性,実用性,ステルスネスを実世界の3つのデータセットで評価した。
論文 参考訳(メタデータ) (2024-08-21T08:53:36Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - SATBA: An Invisible Backdoor Attack Based On Spatial Attention [7.405457329942725]
バックドア攻撃には、隠れたトリガーパターンを含むデータセットに対するDeep Neural Network(DNN)のトレーニングが含まれる。
既存のバックドア攻撃のほとんどは、2つの重大な欠点に悩まされている。
空間的注意とU-netモデルを用いてこれらの制限を克服するSATBAという新しいバックドアアタックを提案する。
論文 参考訳(メタデータ) (2023-02-25T10:57:41Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Ready for Emerging Threats to Recommender Systems? A Graph
Convolution-based Generative Shilling Attack [8.591490818966882]
プリミティブアタックは、非常に実現可能であるが、単純な手作りのルールのため効果が低い。
アップグレードされた攻撃は、より強力だが、費用がかかり、展開が困難である。
本稿では,グラフcOnvolutionに基づく生成シリングアタック(GOAT)と呼ばれる新たなシリング攻撃を探索し,攻撃の実現可能性と効果のバランスをとる。
論文 参考訳(メタデータ) (2021-07-22T05:02:59Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。