論文の概要: Test-time Backdoor Mitigation for Black-Box Large Language Models with
Defensive Demonstrations
- arxiv url: http://arxiv.org/abs/2311.09763v1
- Date: Thu, 16 Nov 2023 10:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:55:19.295948
- Title: Test-time Backdoor Mitigation for Black-Box Large Language Models with
Defensive Demonstrations
- Title(参考訳): ディフェンシブな記述を伴うブラックボックス大言語モデルのテスト時バックドア緩和
- Authors: Wenjie Mo, Jiashu Xu, Qin Liu, Jiongxiao Wang, Jun Yan, Chaowei Xiao,
Muhao Chen
- Abstract要約: 我々の研究は、ブラックボックスの大規模言語モデルのための革新的なバックドア防衛戦略である防衛デモを導入している。
本手法では,タスクの特定と非汚染プールからのタスク関連デモンストレーションの検索を行う。
実験の結果,防御デモは,インスタンスレベルと命令レベルの両方のバックドア攻撃を防御するのに有効であることがわかった。
- 参考スコア(独自算出の注目度): 47.238754175261306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing studies in backdoor defense have predominantly focused on the
training phase, overlooking the critical aspect of testing time defense. This
gap becomes particularly pronounced in the context of Large Language Models
(LLMs) deployed as Web Services, which typically offer only black-box access,
rendering training-time defenses impractical. To bridge this gap, our work
introduces defensive demonstrations, an innovative backdoor defense strategy
for blackbox large language models. Our method involves identifying the task
and retrieving task-relevant demonstrations from an uncontaminated pool. These
demonstrations are then combined with user queries and presented to the model
during testing, without requiring any modifications/tuning to the black-box
model or insights into its internal mechanisms. Defensive demonstrations are
designed to counteract the adverse effects of triggers, aiming to recalibrate
and correct the behavior of poisoned models during test-time evaluations.
Extensive experiments show that defensive demonstrations are effective in
defending both instance-level and instruction-level backdoor attacks, not only
rectifying the behavior of poisoned models but also surpassing existing
baselines in most scenarios.
- Abstract(参考訳): バックドアディフェンスにおける既存の研究は、テスト時間ディフェンスの重要な側面を見越して、トレーニングフェーズに重点を置いている。
このギャップは、WebサービスとしてデプロイされるLarge Language Models(LLM)のコンテキストにおいて特に顕著になる。
このギャップを埋めるため、当社では、blackboxの大規模言語モデルのための革新的なバックドア防御戦略である defense demonstrationsを導入しています。
本手法では,タスクの特定と非汚染プールからのタスク関連デモンストレーションの検索を行う。
これらのデモンストレーションはユーザクエリと組み合わせられ、テスト中にブラックボックスモデルの変更や内部メカニズムへの洞察を必要とせずにモデルに提示される。
ディフェンシブ・デモはトリガーの悪影響を防止し、テスト時間評価中に有毒モデルの振る舞いを再検討し修正することを目的としている。
大規模な実験により、防御デモは、有害なモデルの振る舞いを是正するだけでなく、ほとんどのシナリオにおいて既存のベースラインを超えた、インスタンスレベルと命令レベルのバックドア攻撃の防御に有効であることが示された。
関連論文リスト
- Backdoor Token Unlearning: Exposing and Defending Backdoors in Pretrained Language Models [9.995807326278959]
トレーニング期間中にトリガトークンを積極的に検出・中和するバックドアトークンアンラーニング(BTU)と呼ばれる新しい防衛手法を提案する。
裏口学習は, 単語埋め込み層において, 裏口トークンパラメータとクリーントークンパラメータの区別を生じさせ, 裏口攻撃の成功は裏口トークンパラメータに大きく依存する。
論文 参考訳(メタデータ) (2025-01-05T03:22:13Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - End-to-End Anti-Backdoor Learning on Images and Time Series [34.02071390659078]
バックドア攻撃は、ディープラーニングモデルに重大なセキュリティ上の懸念をもたらす。
本稿では、アンチ・バックドア・ラーニング(ABL)を基盤として、革新的な手法であるエンド・ツー・エンド・アンチ・バックドア・ラーニング(E2ABL)を提案する。
E2ABLがDeep Neural Network(DNN)にリンクした追加の分類ヘッドを通じてエンドツーエンドのトレーニングを達成
論文 参考訳(メタデータ) (2024-01-06T13:34:07Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review [15.179940846141873]
言語モデル(LM)は、現実世界のアプリケーションでますます人気が高まっている。
バックドア攻撃は、トリガーが存在するときに悪意のある動作が起動される深刻な脅威である。
この研究は、NLPコミュニティにバックドア攻撃と対策のタイムリーなレビューを提供することを目的としている。
論文 参考訳(メタデータ) (2023-09-12T08:48:38Z) - Towards a Defense against Backdoor Attacks in Continual Federated
Learning [26.536009090970257]
連合型連続学習環境におけるバックドア攻撃を防御する新しい枠組みを提案する。
私たちのフレームワークでは,バックボーンモデルとシャドーモデルという,2つのモデルを並列にトレーニングしています。
我々は,既存のバックドア攻撃に対する防御において,我々の枠組みが著しく改善されることを実験的に示す。
論文 参考訳(メタデータ) (2022-05-24T03:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。