論文の概要: Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations
- arxiv url: http://arxiv.org/abs/2311.09763v2
- Date: Tue, 11 Feb 2025 19:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:46:21.368868
- Title: Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations
- Title(参考訳): ディフェンシブな記述を伴うブラックボックス大言語モデルのテスト時バックドア緩和
- Authors: Wenjie Mo, Jiashu Xu, Qin Liu, Jiongxiao Wang, Jun Yan, Hadi Askari, Chaowei Xiao, Muhao Chen,
- Abstract要約: 本研究は, ブラックボックスLSMにおけるバックドア攻撃に対する防御機構としてのデモの使用を批判的に検討する。
クリーンなデータプールからタスク関連デモを取得し、テスト中にユーザクエリと統合します。
実験により,本手法はインスタンスレベルのバックドア攻撃と命令レベルのバックドア攻撃の両方に対して堅牢に防御可能であることが示された。
- 参考スコア(独自算出の注目度): 43.12561763108141
- License:
- Abstract: Existing studies in backdoor defense have predominantly focused on the training phase, overlooking the critical aspect of testing time defense. This gap becomes pronounced in the context of LLMs deployed as Web Services, which typically offer only black-box access, rendering training-time defenses impractical. To bridge this gap, this study critically examines the use of demonstrations as a defense mechanism against backdoor attacks in black-box LLMs. We retrieve task-relevant demonstrations from a clean data pool and integrate them with user queries during testing. This approach does not necessitate modifications or tuning of the model, nor does it require insight into the model's internal architecture. The alignment properties inherent in in-context learning play a pivotal role in mitigating the impact of backdoor triggers, effectively recalibrating the behavior of compromised models. Our experimental analysis demonstrates that this method robustly defends against both instance-level and instruction-level backdoor attacks, outperforming existing defense baselines across most evaluation scenarios.
- Abstract(参考訳): バックドアディフェンスにおける既存の研究は、テスト時間ディフェンスの重要な側面を見越して、トレーニングフェーズに主に焦点を当てている。
このギャップは、WebサービスとしてデプロイされるLLMの文脈で顕著になり、通常はブラックボックスアクセスのみを提供し、トレーニング時の防御を非現実的にレンダリングする。
このギャップを埋めるために,ブラックボックスLSMのバックドア攻撃に対する防御機構としてデモの使用を批判的に検討した。
クリーンなデータプールからタスク関連デモを取得し、テスト中にユーザクエリと統合します。
このアプローチではモデルの変更やチューニングは必要とせず、モデルの内部アーキテクチャに関する洞察も必要ありません。
文脈内学習に固有のアライメント特性は、バックドアトリガーの影響を緩和し、妥協されたモデルの振る舞いを効果的に再調整する上で重要な役割を担っている。
実験により,本手法は,インスタンスレベルのバックドア攻撃と命令レベルのバックドア攻撃の両方に対して強固に防御し,既存の防御基準をほとんどの評価シナリオで上回ることを示す。
関連論文リスト
- Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Understanding the Robustness of Randomized Feature Defense Against
Query-Based Adversarial Attacks [23.010308600769545]
ディープニューラルネットワークは、元の画像に近いサンプルを見つける敵の例に弱いが、モデルを誤分類させる可能性がある。
モデル中間層における隠れた特徴にランダムノイズを付加することにより,ブラックボックス攻撃に対する簡易かつ軽量な防御法を提案する。
本手法は,スコアベースと決定ベースの両方のブラックボックス攻撃に対するモデルのレジリエンスを効果的に向上させる。
論文 参考訳(メタデータ) (2023-10-01T03:53:23Z) - Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review [15.179940846141873]
サードパーティのデータやモデルを応用することは、NLPにおける言語モデリングの新しいパラダイムとなっている。
バックドア攻撃は 特定のトリガーを通して 予測された行動を示す モデルを誘導できる
セキュリティ上の課題、攻撃者の能力、目的を反映した、体系的で包括的なレビューはまだない。
論文 参考訳(メタデータ) (2023-09-12T08:48:38Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - WaNet -- Imperceptible Warping-based Backdoor Attack [20.289889150949836]
サードパーティーのモデルは、通常の状況でうまく機能するようにトレーニング中に毒を盛るが、トリガーパターンが現れると悪質に振る舞う。
本稿では,サードパーティモデルに対してワーピングベースのトリガーを用いた攻撃手法を提案する。
提案したバックドアは、人間の検査試験における従来の方法よりも広いマージンで優れており、そのステルス性を証明している。
論文 参考訳(メタデータ) (2021-02-20T15:25:36Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。