論文の概要: Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations
- arxiv url: http://arxiv.org/abs/2311.09763v2
- Date: Tue, 11 Feb 2025 19:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:46:21.368868
- Title: Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations
- Title(参考訳): ディフェンシブな記述を伴うブラックボックス大言語モデルのテスト時バックドア緩和
- Authors: Wenjie Mo, Jiashu Xu, Qin Liu, Jiongxiao Wang, Jun Yan, Hadi Askari, Chaowei Xiao, Muhao Chen,
- Abstract要約: 本研究は, ブラックボックスLSMにおけるバックドア攻撃に対する防御機構としてのデモの使用を批判的に検討する。
クリーンなデータプールからタスク関連デモを取得し、テスト中にユーザクエリと統合します。
実験により,本手法はインスタンスレベルのバックドア攻撃と命令レベルのバックドア攻撃の両方に対して堅牢に防御可能であることが示された。
- 参考スコア(独自算出の注目度): 43.12561763108141
- License:
- Abstract: Existing studies in backdoor defense have predominantly focused on the training phase, overlooking the critical aspect of testing time defense. This gap becomes pronounced in the context of LLMs deployed as Web Services, which typically offer only black-box access, rendering training-time defenses impractical. To bridge this gap, this study critically examines the use of demonstrations as a defense mechanism against backdoor attacks in black-box LLMs. We retrieve task-relevant demonstrations from a clean data pool and integrate them with user queries during testing. This approach does not necessitate modifications or tuning of the model, nor does it require insight into the model's internal architecture. The alignment properties inherent in in-context learning play a pivotal role in mitigating the impact of backdoor triggers, effectively recalibrating the behavior of compromised models. Our experimental analysis demonstrates that this method robustly defends against both instance-level and instruction-level backdoor attacks, outperforming existing defense baselines across most evaluation scenarios.
- Abstract(参考訳): バックドアディフェンスにおける既存の研究は、テスト時間ディフェンスの重要な側面を見越して、トレーニングフェーズに主に焦点を当てている。
このギャップは、WebサービスとしてデプロイされるLLMの文脈で顕著になり、通常はブラックボックスアクセスのみを提供し、トレーニング時の防御を非現実的にレンダリングする。
このギャップを埋めるために,ブラックボックスLSMのバックドア攻撃に対する防御機構としてデモの使用を批判的に検討した。
クリーンなデータプールからタスク関連デモを取得し、テスト中にユーザクエリと統合します。
このアプローチではモデルの変更やチューニングは必要とせず、モデルの内部アーキテクチャに関する洞察も必要ありません。
文脈内学習に固有のアライメント特性は、バックドアトリガーの影響を緩和し、妥協されたモデルの振る舞いを効果的に再調整する上で重要な役割を担っている。
実験により,本手法は,インスタンスレベルのバックドア攻撃と命令レベルのバックドア攻撃の両方に対して強固に防御し,既存の防御基準をほとんどの評価シナリオで上回ることを示す。
関連論文リスト
- Backdoor Token Unlearning: Exposing and Defending Backdoors in Pretrained Language Models [9.995807326278959]
トレーニング期間中にトリガトークンを積極的に検出・中和するバックドアトークンアンラーニング(BTU)と呼ばれる新しい防衛手法を提案する。
裏口学習は, 単語埋め込み層において, 裏口トークンパラメータとクリーントークンパラメータの区別を生じさせ, 裏口攻撃の成功は裏口トークンパラメータに大きく依存する。
論文 参考訳(メタデータ) (2025-01-05T03:22:13Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - End-to-End Anti-Backdoor Learning on Images and Time Series [34.02071390659078]
バックドア攻撃は、ディープラーニングモデルに重大なセキュリティ上の懸念をもたらす。
本稿では、アンチ・バックドア・ラーニング(ABL)を基盤として、革新的な手法であるエンド・ツー・エンド・アンチ・バックドア・ラーニング(E2ABL)を提案する。
E2ABLがDeep Neural Network(DNN)にリンクした追加の分類ヘッドを通じてエンドツーエンドのトレーニングを達成
論文 参考訳(メタデータ) (2024-01-06T13:34:07Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review [15.179940846141873]
言語モデル(LM)は、現実世界のアプリケーションでますます人気が高まっている。
バックドア攻撃は、トリガーが存在するときに悪意のある動作が起動される深刻な脅威である。
この研究は、NLPコミュニティにバックドア攻撃と対策のタイムリーなレビューを提供することを目的としている。
論文 参考訳(メタデータ) (2023-09-12T08:48:38Z) - Towards a Defense against Backdoor Attacks in Continual Federated
Learning [26.536009090970257]
連合型連続学習環境におけるバックドア攻撃を防御する新しい枠組みを提案する。
私たちのフレームワークでは,バックボーンモデルとシャドーモデルという,2つのモデルを並列にトレーニングしています。
我々は,既存のバックドア攻撃に対する防御において,我々の枠組みが著しく改善されることを実験的に示す。
論文 参考訳(メタデータ) (2022-05-24T03:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。