論文の概要: Composite Backdoor Attacks Against Large Language Models
- arxiv url: http://arxiv.org/abs/2310.07676v1
- Date: Wed, 11 Oct 2023 17:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 21:27:45.768378
- Title: Composite Backdoor Attacks Against Large Language Models
- Title(参考訳): 大規模言語モデルに対する複合バックドア攻撃
- Authors: Hai Huang, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang
- Abstract要約: 本稿では,バックドア攻撃のレンズによる大規模言語モデル(LLM)の脆弱性について検討する。
複合バックドア攻撃(CBA)は、同じ複数のトリガーキーを単一のコンポーネントに埋め込むよりもステルス性が高い。
CBAは自然言語処理(NLP)とマルチモーダルタスクの両方に有効であることを示す。
- 参考スコア(独自算出の注目度): 35.90535387625355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated superior performance compared
to previous methods on various tasks, and often serve as the foundation models
for many researches and services. However, the untrustworthy third-party LLMs
may covertly introduce vulnerabilities for downstream tasks. In this paper, we
explore the vulnerability of LLMs through the lens of backdoor attacks.
Different from existing backdoor attacks against LLMs, ours scatters multiple
trigger keys in different prompt components. Such a Composite Backdoor Attack
(CBA) is shown to be stealthier than implanting the same multiple trigger keys
in only a single component. CBA ensures that the backdoor is activated only
when all trigger keys appear. Our experiments demonstrate that CBA is effective
in both natural language processing (NLP) and multimodal tasks. For instance,
with $3\%$ poisoning samples against the LLaMA-7B model on the Emotion dataset,
our attack achieves a $100\%$ Attack Success Rate (ASR) with a False Triggered
Rate (FTR) below $2.06\%$ and negligible model accuracy degradation. The unique
characteristics of our CBA can be tailored for various practical scenarios,
e.g., targeting specific user groups. Our work highlights the necessity of
increased security research on the trustworthiness of foundation LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにおける従来の手法よりも優れた性能を示し、多くの研究やサービスの基盤モデルとして機能することが多い。
しかし、信頼できるサードパーティのLLMは、下流タスクの脆弱性を隠蔽的に導入する可能性がある。
本稿では,バックドアアタックのレンズによるLSMの脆弱性について検討する。
LLMに対する既存のバックドア攻撃とは異なり、当社は異なるプロンプトコンポーネントで複数のトリガーキーを散乱させる。
このような複合バックドア攻撃(CBA)は、同じ複数のトリガーキーを単一のコンポーネントに埋め込むよりもステルス性が高い。
cbaは全てのトリガーキーが現れたときのみバックドアが起動されることを保証する。
CBAは自然言語処理(NLP)とマルチモーダルタスクの両方に有効であることを示す。
例えば、Emotionデータセット上のLLaMA-7Bモデルに対して$3\%の有毒サンプルを使用すれば、False Triggered Rate (FTR)が$2.06\%以下で100\%のアタック成功率(ASR)が達成され、モデルの精度が低下します。
我々のCBAの特徴は、例えば特定のユーザーグループをターゲットにした様々な実践シナリオに合わせることができる。
本研究は, LLMの信頼性向上に向けたセキュリティ研究の必要性を強調するものである。
関連論文リスト
- ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - Transferring Backdoors between Large Language Models by Knowledge Distillation [2.9138150728729064]
バックドア攻撃は大規模言語モデル(LLM)に対する深刻な脆弱性である。
従来の手法では、特定のモデルでのみそのようなリスクを明らかにしたり、事前訓練されたフェーズを攻撃した後のタスク転送可能性を示す。
本研究では,教師LLMのバックドアを小型モデルに効果的に蒸留できる適応的トランスファー可能なバックドアアタックであるATBAを提案する。
論文 参考訳(メタデータ) (2024-08-19T10:39:45Z) - Revisiting Backdoor Attacks against Large Vision-Language Models [76.42014292255944]
本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化可能性について実験的に検討する。
以上に基づいて,既存のバックドア攻撃を修正した。
本稿では,従来のシンプルなバックドア戦略でさえ,LVLMに深刻な脅威をもたらすことを指摘する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models [2.852785344249702]
我々は,大規模言語モデルにおける生成タスクに対するバックドアアタックを軽減するために,CLEANGENという新しい推論時間ディフェンスを開発した。
CLEANGENは最先端のSOTA (State-of-the-art) LLMと互換性がある。
以上の結果から,CLEANGENは5つのSOTAベースライン防御よりも攻撃成功率(ASR)が低いことが示唆された。
論文 参考訳(メタデータ) (2024-06-18T04:10:38Z) - Backdoor Removal for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。
悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。
生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文 参考訳(メタデータ) (2024-05-13T11:53:42Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。