論文の概要: CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization
- arxiv url: http://arxiv.org/abs/2411.12768v1
- Date: Mon, 18 Nov 2024 07:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:42.555518
- Title: CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization
- Title(参考訳): CROW:内部一貫性規則化による大規模言語モデルからのバックドアの排除
- Authors: Nay Myat Min, Long H. Pham, Yige Li, Jun Sun,
- Abstract要約: 大規模言語モデル(LLM)は、バックドア攻撃の影響を受けやすい。
バックドアトリガによる階層的不整合に対処するために、内部一貫性規則化(CROW)を導入する。
CROWは、さまざまなバックドア戦略やタスクにおける攻撃成功率の大幅な削減を一貫して達成している。
- 参考スコア(独自算出の注目度): 7.282200564983221
- License:
- Abstract: Recent studies reveal that Large Language Models (LLMs) are susceptible to backdoor attacks, where adversaries embed hidden triggers that manipulate model responses. Existing backdoor defense methods are primarily designed for vision or classification tasks, and are thus ineffective for text generation tasks, leaving LLMs vulnerable. We introduce Internal Consistency Regularization (CROW), a novel defense using consistency regularization finetuning to address layer-wise inconsistencies caused by backdoor triggers. CROW leverages the intuition that clean models exhibit smooth, consistent transitions in hidden representations across layers, whereas backdoored models show noticeable fluctuation when triggered. By enforcing internal consistency through adversarial perturbations and regularization, CROW neutralizes backdoor effects without requiring clean reference models or prior trigger knowledge, relying only on a small set of clean data. This makes it practical for deployment across various LLM architectures. Experimental results demonstrate that CROW consistently achieves a significant reductions in attack success rates across diverse backdoor strategies and tasks, including negative sentiment, targeted refusal, and code injection, on models such as Llama-2 (7B, 13B), CodeLlama (7B, 13B) and Mistral-7B, while preserving the model's generative capabilities.
- Abstract(参考訳): 近年の研究では、Large Language Models (LLM) がバックドア攻撃の影響を受けやすいことが判明している。
既存のバックドア防御方法は、主に視覚や分類タスクのために設計されており、テキスト生成タスクには効果がなく、LSMは脆弱である。
バックドアトリガによる階層的不整合に対処するために,整合性正規化微調整を用いた新しい防御法である内部整合正則化(CROW)を導入する。
CROWはクリーンモデルが層間の隠れ表現において滑らかで一貫した遷移を示すという直感を生かしているが、バックドアモデルはトリガ時に顕著な変動を示す。
敵の摂動と正規化によって内部の一貫性を強制することにより、CROWはクリーンな参照モデルや事前のトリガー知識を必要とせず、少数のクリーンなデータのみに依存することなく、バックドア効果を中和する。
これにより、様々なLLMアーキテクチャにまたがるデプロイが現実的になる。
Llama-2 (7B, 13B) や CodeLlama (7B, 13B) や Mistral-7B といったモデル上で, モデル生成能力を保ちながら, 負の感情, 対象の拒絶, コードインジェクションなど, さまざまなバックドア戦略やタスクに対する攻撃成功率を継続的に低下させることを示す実験結果が得られた。
関連論文リスト
- Towards Robust Object Detection: Identifying and Removing Backdoors via Module Inconsistency Analysis [5.8634235309501435]
オブジェクト検出モデルに適したバックドアディフェンスフレームワークを提案する。
不整合を定量化し解析することにより、バックドアを検出するアルゴリズムを開発する。
最先端の2段階物体検出器を用いた実験により, バックドア除去率の90%向上が得られた。
論文 参考訳(メタデータ) (2024-09-24T12:58:35Z) - CLIBE: Detecting Dynamic Backdoors in Transformer-based NLP Models [39.782217458240225]
本稿では, Transformer ベースの NLP モデルで動的バックドアを検出する最初のフレームワークである CLIBE を提案する。
私たちの知る限り、CLIBEは、入力テストサンプルをトリガーすることなく、テキスト生成モデルのバックドアを検出することができる最初のフレームワークです。
論文 参考訳(メタデータ) (2024-09-02T11:59:56Z) - DeCE: Deceptive Cross-Entropy Loss Designed for Defending Backdoor Attacks [26.24490960002264]
本稿では,コード言語モデルのセキュリティを高めるために,汎用的で効果的な損失関数DeCE(Deceptive Cross-Entropy)を提案する。
さまざまなコード合成データセット,モデル,有毒比による実験は,DeCEの適用性と有効性を示している。
論文 参考訳(メタデータ) (2024-07-12T03:18:38Z) - Revisiting Backdoor Attacks against Large Vision-Language Models [76.42014292255944]
本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化可能性について実験的に検討する。
以上に基づいて,既存のバックドア攻撃を修正した。
本稿では,従来のシンプルなバックドア戦略でさえ,LVLMに深刻な脅威をもたらすことを指摘する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Mitigating Backdoors in Federated Learning with FLD [7.908496863030483]
フェデレーション学習は、クライアントがプライバシー保護のために生データをアップロードすることなく、グローバルモデルを協調的にトレーニングすることを可能にする。
この機能は最近、バックドア攻撃に直面したフェデレーション学習の脆弱性の原因となっていることが判明した。
バックドア攻撃に対して効果的に防御する新しいモデルフィルタリング手法であるフェデレート層検出(FLD)を提案する。
論文 参考訳(メタデータ) (2023-03-01T07:54:54Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。