論文の概要: Composite Backdoor Attacks Against Large Language Models
- arxiv url: http://arxiv.org/abs/2310.07676v1
- Date: Wed, 11 Oct 2023 17:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 21:27:45.768378
- Title: Composite Backdoor Attacks Against Large Language Models
- Title(参考訳): 大規模言語モデルに対する複合バックドア攻撃
- Authors: Hai Huang, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang
- Abstract要約: 本稿では,バックドア攻撃のレンズによる大規模言語モデル(LLM)の脆弱性について検討する。
複合バックドア攻撃(CBA)は、同じ複数のトリガーキーを単一のコンポーネントに埋め込むよりもステルス性が高い。
CBAは自然言語処理(NLP)とマルチモーダルタスクの両方に有効であることを示す。
- 参考スコア(独自算出の注目度): 35.90535387625355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated superior performance compared
to previous methods on various tasks, and often serve as the foundation models
for many researches and services. However, the untrustworthy third-party LLMs
may covertly introduce vulnerabilities for downstream tasks. In this paper, we
explore the vulnerability of LLMs through the lens of backdoor attacks.
Different from existing backdoor attacks against LLMs, ours scatters multiple
trigger keys in different prompt components. Such a Composite Backdoor Attack
(CBA) is shown to be stealthier than implanting the same multiple trigger keys
in only a single component. CBA ensures that the backdoor is activated only
when all trigger keys appear. Our experiments demonstrate that CBA is effective
in both natural language processing (NLP) and multimodal tasks. For instance,
with $3\%$ poisoning samples against the LLaMA-7B model on the Emotion dataset,
our attack achieves a $100\%$ Attack Success Rate (ASR) with a False Triggered
Rate (FTR) below $2.06\%$ and negligible model accuracy degradation. The unique
characteristics of our CBA can be tailored for various practical scenarios,
e.g., targeting specific user groups. Our work highlights the necessity of
increased security research on the trustworthiness of foundation LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにおける従来の手法よりも優れた性能を示し、多くの研究やサービスの基盤モデルとして機能することが多い。
しかし、信頼できるサードパーティのLLMは、下流タスクの脆弱性を隠蔽的に導入する可能性がある。
本稿では,バックドアアタックのレンズによるLSMの脆弱性について検討する。
LLMに対する既存のバックドア攻撃とは異なり、当社は異なるプロンプトコンポーネントで複数のトリガーキーを散乱させる。
このような複合バックドア攻撃(CBA)は、同じ複数のトリガーキーを単一のコンポーネントに埋め込むよりもステルス性が高い。
cbaは全てのトリガーキーが現れたときのみバックドアが起動されることを保証する。
CBAは自然言語処理(NLP)とマルチモーダルタスクの両方に有効であることを示す。
例えば、Emotionデータセット上のLLaMA-7Bモデルに対して$3\%の有毒サンプルを使用すれば、False Triggered Rate (FTR)が$2.06\%以下で100\%のアタック成功率(ASR)が達成され、モデルの精度が低下します。
我々のCBAの特徴は、例えば特定のユーザーグループをターゲットにした様々な実践シナリオに合わせることができる。
本研究は, LLMの信頼性向上に向けたセキュリティ研究の必要性を強調するものである。
関連論文リスト
- Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Test-Time Backdoor Attacks on Multimodal Large Language Models [41.601029747738394]
マルチモーダル大規模言語モデル(MLLM)に対するテスト時間バックドア攻撃であるAnyDoorを提案する。
AnyDoorは、普遍的な敵攻撃で使用される同様のテクニックを採用しているが、有害な効果のセットアップとアクティベーションのタイミングを分離する能力によって、自分自身を区別している。
論文 参考訳(メタデータ) (2024-02-13T16:28:28Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - From Shortcuts to Triggers: Backdoor Defense with Denoised PoE [51.287157951953226]
言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。
既存のバックドア防御手法は主に明示的なトリガーによるバックドア攻撃に焦点を当てている。
我々は,様々なバックドア攻撃を防御するために,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:25Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Dual-Key Multimodal Backdoors for Visual Question Answering [26.988750557552983]
マルチモーダルネットワークは、Dual-Key Multimodal Backdoorsと呼ばれる新しいタイプの攻撃に対して脆弱であることを示す。
この攻撃は、最先端のネットワークが使用する複雑な融合機構を利用して、効果的でステルス的なバックドアを埋め込む。
本稿では,視覚的質問応答(VQA)タスクにおけるマルチモーダルバックドアについて,複数のアーキテクチャと視覚的特徴バックボーンを用いた広範な検討を行う。
論文 参考訳(メタデータ) (2021-12-14T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。