論文の概要: Backdoor Removal for Generative Large Language Models
- arxiv url: http://arxiv.org/abs/2405.07667v1
- Date: Mon, 13 May 2024 11:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 13:55:08.817819
- Title: Backdoor Removal for Generative Large Language Models
- Title(参考訳): 生成型大規模言語モデルのためのバックドア除去
- Authors: Haoran Li, Yulin Chen, Zihao Zheng, Qi Hu, Chunkit Chan, Heshan Liu, Yangqiu Song,
- Abstract要約: 生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。
悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。
生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
- 参考スコア(独自算出の注目度): 42.19147076519423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With rapid advances, generative large language models (LLMs) dominate various Natural Language Processing (NLP) tasks from understanding to reasoning. Yet, language models' inherent vulnerabilities may be exacerbated due to increased accessibility and unrestricted model training on massive textual data from the Internet. A malicious adversary may publish poisoned data online and conduct backdoor attacks on the victim LLMs pre-trained on the poisoned data. Backdoored LLMs behave innocuously for normal queries and generate harmful responses when the backdoor trigger is activated. Despite significant efforts paid to LLMs' safety issues, LLMs are still struggling against backdoor attacks. As Anthropic recently revealed, existing safety training strategies, including supervised fine-tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF), fail to revoke the backdoors once the LLM is backdoored during the pre-training stage. In this paper, we present Simulate and Eliminate (SANDE) to erase the undesired backdoored mappings for generative LLMs. We initially propose Overwrite Supervised Fine-tuning (OSFT) for effective backdoor removal when the trigger is known. Then, to handle the scenarios where the trigger patterns are unknown, we integrate OSFT into our two-stage framework, SANDE. Unlike previous works that center on the identification of backdoors, our safety-enhanced LLMs are able to behave normally even when the exact triggers are activated. We conduct comprehensive experiments to show that our proposed SANDE is effective against backdoor attacks while bringing minimal harm to LLMs' powerful capability without any additional access to unbackdoored clean models. We will release the reproducible code.
- Abstract(参考訳): 急速な進歩により、生成型大規模言語モデル(LLM)は理解から推論まで様々な自然言語処理(NLP)タスクを支配している。
しかし、言語モデル固有の脆弱性は、インターネットからの大量のテキストデータに対するアクセシビリティ向上と無制限なモデルトレーニングにより悪化する可能性がある。
悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。
バックドアのLCMは通常のクエリに対して無害に動作し、バックドアのトリガがアクティブになったときに有害な応答を生成する。
LLMの安全性問題に多大な努力を払っているにもかかわらず、LLMはバックドア攻撃に苦戦している。
Anthropicが最近明らかにしたように、教師付き微調整(SFT)や人間からのフィードバックからの強化学習(RLHF)を含む既存の安全訓練戦略は、事前訓練の段階でLLMがバックドアを外すと、バックドアを無効にしない。
本稿では、生成LDMの不要なバックドアマッピングを消去するためにSANDE(Simulate and Eliminate)を提案する。
トリガが検出された場合, バックドアを効果的に除去するためのOverwrite Supervised Fine-tuning (OSFT) を提案する。
次に、トリガパターンが未知のシナリオを扱うために、OSFTを2段階フレームワークであるSANDEに統合します。
バックドアの識別に重点を置いていた従来の研究とは異なり、我々の安全を増進したLSMは、正確なトリガーが活性化された場合でも正常に動作することができる。
我々は,提案するSANDEがバックドア攻撃に対して有効であることを示すとともに,非バックドアクリーンモデルへの追加アクセスを伴わずにLLMの強力な能力に最小限のダメージを与えることを示す包括的実験を行った。
再現可能なコードを公開します。
関連論文リスト
- When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に対して脆弱である。
本稿では,自然言語説明の新しいレンズを用いたバックドア機能について検討する。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - Mitigating Backdoor Threats to Large Language Models: Advancement and Challenges [46.032173498399885]
大規模言語モデル(LLM)は、Web検索、ヘルスケア、ソフトウェア開発など、さまざまな領域に大きな影響を与えている。
これらのモデルがスケールするにつれて、サイバーセキュリティのリスク、特にバックドア攻撃に対する脆弱性が高まる。
論文 参考訳(メタデータ) (2024-09-30T06:31:36Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models [16.71019302192829]
大規模言語モデル(LLM)は、自然言語処理(NLP)において顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。
バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。
本稿では,Retrieval-Augmented Generationにおいて,共同でバックドア攻撃を行うTrojanRAGを提案する。
論文 参考訳(メタデータ) (2024-05-22T07:21:32Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models [15.381273199132433]
BadChainは大規模な言語モデル(LLM)に対する最初のバックドア攻撃であり、COTプロンプトを採用している。
2つのCOT戦略と6つのベンチマークタスクに対するBadChainの有効性を示す。
BadChain は LLM にとって深刻な脅威であり、堅牢で効果的な将来の防衛の開発の緊急性を強調している。
論文 参考訳(メタデータ) (2024-01-20T04:53:35Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。