論文の概要: TrojPrompt: A Black-box Trojan Attack on Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2306.06815v1
- Date: Mon, 12 Jun 2023 01:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 16:27:06.937376
- Title: TrojPrompt: A Black-box Trojan Attack on Pre-trained Language Models
- Title(参考訳): TrojPrompt: トレーニング済み言語モデルに対するブラックボックストロイの木馬攻撃
- Authors: Jiaqi Xue, Yepeng Liu, Mengxin Zheng, Ting Hua, Yilin Shen, Ladislau
Boloni and Qian Lou
- Abstract要約: 我々は,PLM APIのトロイの木馬感受性に関する先駆的な研究を行っている。
提案するTrojPromptは,任意のトリガを効果的に生成し,Trojansをハードプロンプトに挿入する,自動およびブラックボックスフレームワークである。
実世界のブラックボックスPLM APIにおけるテキストプロンプトにTrojPromptを効果的に挿入する能力を示す実験と結果を得た。
- 参考スコア(独自算出の注目度): 33.00511126378731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt learning has been proven to be highly effective in improving
pre-trained language model (PLM) adaptability, surpassing conventional
fine-tuning paradigms, and showing exceptional promise in an ever-growing
landscape of applications and APIs tailored for few-shot learning scenarios.
Despite the growing prominence of prompt learning-based APIs, their security
concerns remain underexplored. In this paper, we undertake a pioneering study
on the Trojan susceptibility of prompt-learning PLM APIs. We identified several
key challenges, including discrete-prompt, few-shot, and black-box settings,
which limit the applicability of existing backdoor attacks. To address these
challenges, we propose TrojPrompt, an automatic and black-box framework to
effectively generate universal and stealthy triggers and insert Trojans into
hard prompts. Specifically, we propose a universal API-driven trigger discovery
algorithm for generating universal triggers for various inputs by querying
victim PLM APIs using few-shot data samples. Furthermore, we introduce a novel
progressive trojan poisoning algorithm designed to generate poisoned prompts
that retain efficacy and transferability across a diverse range of models. Our
experiments and results demonstrate TrojPrompt's capacity to effectively insert
Trojans into text prompts in real-world black-box PLM APIs, while maintaining
exceptional performance on clean test sets and significantly outperforming
baseline models. Our work sheds light on the potential security risks in
current models and offers a potential defensive approach.
- Abstract(参考訳): プロンプト学習は、事前学習された言語モデル(plm)適応性の改善に非常に効果的であることが証明されており、従来の微調整パラダイムを上回っており、数少ない学習シナリオ用に調整されたアプリケーションやapiの状況において、非常に有望である。
プロンプト学習ベースのapiが注目されているにもかかわらず、セキュリティに関する懸念は未検討のままである。
本稿では,プロンプトラーニング PLM API のトロイの木馬感受性に関する先駆的な研究を行う。
我々は,既存のバックドア攻撃の適用性を制限した離散プロンプト,少数ショット,ブラックボックス設定など,いくつかの重要な課題を特定した。
これらの課題に対処するため,我々は,汎用的でステルスなトリガを生成し,トロイの木馬をハードプロンプトに挿入する自動ブラックボックスフレームワークであるtrojpromptを提案する。
具体的には,限られたデータサンプルを用いて被害者のplm apiに問い合わせることで,様々な入力に対してユニバーサルトリガを生成するためのユニバーサルapi駆動トリガー探索アルゴリズムを提案する。
さらに,多種多様なモデルにおける有効性と伝達性を維持する毒素を発生させる新しいプログレッシブトロイの木馬毒アルゴリズムを提案する。
実世界のブラックボックス PLM API において,TrojPrompt をテキストプロンプトに効果的に挿入する能力を示すとともに,クリーンなテストセット上での例外的な性能を維持し,ベースラインモデルよりも大幅に優れていることを示す。
私たちの仕事は、現在のモデルの潜在的なセキュリティリスクに光を当て、潜在的な防御的アプローチを提供します。
関連論文リスト
- Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - The Philosopher's Stone: Trojaning Plugins of Large Language Models [22.67696768099352]
オープンソースのLarge Language Models (LLM) は、プロプライエタリなLLMに匹敵するパフォーマンスのため、最近人気を集めている。
ドメイン特化タスクを効率的にこなすために、低ランクアダプタを用いて高価なアクセラレーターを使わずにオープンソースのLLMを洗練することができる。
LLMを制御するために低ランクアダプタを利用できるかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-12-01T06:36:17Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - TrojText: Test-time Invisible Textual Trojan Insertion [18.866093947145654]
自然言語処理(NLP)では、インテリジェントニューロンモデルはテキストトロイの木馬攻撃の影響を受けやすい。
本稿では,学習データなしでより効率的かつ費用対効果の高いテキスト・トロイの木版攻撃が可能かどうかを判定するTrojTextという手法を提案する。
提案手法はRepresentation-Logit Trojan Insertion (RLI)アルゴリズムと呼ばれ、大規模なトレーニングデータの代わりにより小さなサンプルテストデータを用いて、望ましい攻撃を実現する。
論文 参考訳(メタデータ) (2023-03-03T22:19:22Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - An Adaptive Black-box Backdoor Detection Method for Deep Neural Networks [25.593824693347113]
ディープニューラルネットワーク(DNN)は、医療診断や自律運転など、さまざまな分野において前例のないパフォーマンスを示している。
それらは、ステルスシートリガーによって制御され、活性化されるニューラルトロイの木馬攻撃(NT)に対して脆弱である。
本稿では,事前訓練したトロイの木馬が展開前にトロイの木馬に検出されたかどうかを検査するロバストで適応的なトロイの木馬検出手法を提案する。
論文 参考訳(メタデータ) (2022-04-08T23:41:19Z) - Practical Detection of Trojan Neural Networks: Data-Limited and
Data-Free Cases [87.69818690239627]
本稿では,データスカース方式におけるトロイの木馬ネットワーク(トロイの木馬網)検出の問題点について検討する。
本稿では,データ限定型TrojanNet検出器(TND)を提案する。
さらに,データサンプルにアクセスせずにTrojanNetを検出できるデータフリーTNDを提案する。
論文 参考訳(メタデータ) (2020-07-31T02:00:38Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - An Embarrassingly Simple Approach for Trojan Attack in Deep Neural
Networks [59.42357806777537]
トロイの木馬攻撃は、ハッカーが挿入した隠れトリガーパターンに依存する、デプロイされたディープニューラルネットワーク(DNN)を攻撃することを目的としている。
そこで本研究では,有毒データセットの再学習モデルによりトロイの木馬の挙動を注入する,従来と異なる学習自由攻撃手法を提案する。
提案したTrojanNetには,(1)小さなトリガパターンによって起動し,他の信号に対してサイレントを維持する,(2)モデルに依存しない,ほとんどのDNNに注入可能な,(3)攻撃シナリオを劇的に拡張する,(3)訓練不要のメカニズムは従来のトロイの木馬攻撃方法と比較して大規模なトレーニング作業の削減など,いくつかの優れた特性がある。
論文 参考訳(メタデータ) (2020-06-15T04:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。