論文の概要: Test-time Backdoor Mitigation for Black-Box Large Language Models with
Defensive Demonstrations
- arxiv url: http://arxiv.org/abs/2311.09763v1
- Date: Thu, 16 Nov 2023 10:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:55:19.295948
- Title: Test-time Backdoor Mitigation for Black-Box Large Language Models with
Defensive Demonstrations
- Title(参考訳): ディフェンシブな記述を伴うブラックボックス大言語モデルのテスト時バックドア緩和
- Authors: Wenjie Mo, Jiashu Xu, Qin Liu, Jiongxiao Wang, Jun Yan, Chaowei Xiao,
Muhao Chen
- Abstract要約: 我々の研究は、ブラックボックスの大規模言語モデルのための革新的なバックドア防衛戦略である防衛デモを導入している。
本手法では,タスクの特定と非汚染プールからのタスク関連デモンストレーションの検索を行う。
実験の結果,防御デモは,インスタンスレベルと命令レベルの両方のバックドア攻撃を防御するのに有効であることがわかった。
- 参考スコア(独自算出の注目度): 47.238754175261306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing studies in backdoor defense have predominantly focused on the
training phase, overlooking the critical aspect of testing time defense. This
gap becomes particularly pronounced in the context of Large Language Models
(LLMs) deployed as Web Services, which typically offer only black-box access,
rendering training-time defenses impractical. To bridge this gap, our work
introduces defensive demonstrations, an innovative backdoor defense strategy
for blackbox large language models. Our method involves identifying the task
and retrieving task-relevant demonstrations from an uncontaminated pool. These
demonstrations are then combined with user queries and presented to the model
during testing, without requiring any modifications/tuning to the black-box
model or insights into its internal mechanisms. Defensive demonstrations are
designed to counteract the adverse effects of triggers, aiming to recalibrate
and correct the behavior of poisoned models during test-time evaluations.
Extensive experiments show that defensive demonstrations are effective in
defending both instance-level and instruction-level backdoor attacks, not only
rectifying the behavior of poisoned models but also surpassing existing
baselines in most scenarios.
- Abstract(参考訳): バックドアディフェンスにおける既存の研究は、テスト時間ディフェンスの重要な側面を見越して、トレーニングフェーズに重点を置いている。
このギャップは、WebサービスとしてデプロイされるLarge Language Models(LLM)のコンテキストにおいて特に顕著になる。
このギャップを埋めるため、当社では、blackboxの大規模言語モデルのための革新的なバックドア防御戦略である defense demonstrationsを導入しています。
本手法では,タスクの特定と非汚染プールからのタスク関連デモンストレーションの検索を行う。
これらのデモンストレーションはユーザクエリと組み合わせられ、テスト中にブラックボックスモデルの変更や内部メカニズムへの洞察を必要とせずにモデルに提示される。
ディフェンシブ・デモはトリガーの悪影響を防止し、テスト時間評価中に有毒モデルの振る舞いを再検討し修正することを目的としている。
大規模な実験により、防御デモは、有害なモデルの振る舞いを是正するだけでなく、ほとんどのシナリオにおいて既存のベースラインを超えた、インスタンスレベルと命令レベルのバックドア攻撃の防御に有効であることが示された。
関連論文リスト
- Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Understanding the Robustness of Randomized Feature Defense Against
Query-Based Adversarial Attacks [23.010308600769545]
ディープニューラルネットワークは、元の画像に近いサンプルを見つける敵の例に弱いが、モデルを誤分類させる可能性がある。
モデル中間層における隠れた特徴にランダムノイズを付加することにより,ブラックボックス攻撃に対する簡易かつ軽量な防御法を提案する。
本手法は,スコアベースと決定ベースの両方のブラックボックス攻撃に対するモデルのレジリエンスを効果的に向上させる。
論文 参考訳(メタデータ) (2023-10-01T03:53:23Z) - Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review [15.179940846141873]
サードパーティのデータやモデルを応用することは、NLPにおける言語モデリングの新しいパラダイムとなっている。
バックドア攻撃は 特定のトリガーを通して 予測された行動を示す モデルを誘導できる
セキュリティ上の課題、攻撃者の能力、目的を反映した、体系的で包括的なレビューはまだない。
論文 参考訳(メタデータ) (2023-09-12T08:48:38Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - WaNet -- Imperceptible Warping-based Backdoor Attack [20.289889150949836]
サードパーティーのモデルは、通常の状況でうまく機能するようにトレーニング中に毒を盛るが、トリガーパターンが現れると悪質に振る舞う。
本稿では,サードパーティモデルに対してワーピングベースのトリガーを用いた攻撃手法を提案する。
提案したバックドアは、人間の検査試験における従来の方法よりも広いマージンで優れており、そのステルス性を証明している。
論文 参考訳(メタデータ) (2021-02-20T15:25:36Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。