論文の概要: MEGen: Generative Backdoor in Large Language Models via Model Editing
- arxiv url: http://arxiv.org/abs/2408.10722v1
- Date: Tue, 20 Aug 2024 10:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 14:04:52.038634
- Title: MEGen: Generative Backdoor in Large Language Models via Model Editing
- Title(参考訳): MEGen: モデル編集による大規模言語モデルの生成バックドア
- Authors: Jiyang Qiu, Xinbei Ma, Zhuosheng Zhang, Hai Zhao,
- Abstract要約: 大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
- 参考スコア(独自算出の注目度): 56.46183024683885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities. Their powerful generative abilities enable flexible responses based on various queries or instructions. Emerging as widely adopted generalists for diverse tasks, LLMs are still vulnerable to backdoors. This paper proposes an editing-based generative backdoor, named MEGen, aiming to create a customized backdoor for NLP tasks with the least side effects. In our approach, we first leverage a language model to insert a trigger selected on fixed metrics into the input, then design a pipeline of model editing to directly embed a backdoor into an LLM. By adjusting a small set of local parameters with a mini-batch of samples, MEGen significantly enhances time efficiency and achieves high robustness. Experimental results indicate that our backdoor attack strategy achieves a high attack success rate on poison data while maintaining the model's performance on clean data. Notably, the backdoored model, when triggered, can freely output pre-set dangerous information while successfully completing downstream tasks. This suggests that future LLM applications could be guided to deliver certain dangerous information, thus altering the LLM's generative style. We believe this approach provides insights for future LLM applications and the execution of backdoor attacks on conversational AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
多様なタスクに対して広く採用されているジェネラリストとして、LLMは依然としてバックドアに対して脆弱である。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
提案手法では,まず言語モデルを用いて,固定メトリクスから選択したトリガを入力に挿入し,モデル編集のパイプラインを設計し,バックドアを直接LLMに埋め込む。
局所パラメータの小さなセットをサンプルのミニバッチで調整することにより、MEGenは時間効率を大幅に向上し、高いロバスト性を実現する。
実験結果から,我々のバックドア攻撃戦略は,クリーンデータ上でのモデルの性能を維持しつつ,毒性データに対する高い攻撃成功率を達成することが示唆された。
特に、バックドアモデルがトリガーされると、下流タスクを成功させながら、予め設定された危険な情報を自由に出力することができる。
このことは、将来のLLMアプリケーションは、特定の危険な情報を提供するためにガイドされ、LLMの生成スタイルを変える可能性があることを示唆している。
このアプローチは、将来のLLMアプリケーションと、会話型AIシステムに対するバックドアアタックの実行に関する洞察を提供するものだと考えています。
関連論文リスト
- When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に対して脆弱である。
本稿では,自然言語説明の新しいレンズを用いたバックドア機能について検討する。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models [2.852785344249702]
我々は,大規模言語モデルにおける生成タスクに対するバックドアアタックを軽減するために,CLEANGENという新しい推論時間ディフェンスを開発した。
CLEANGENは最先端のSOTA (State-of-the-art) LLMと互換性がある。
以上の結果から,CLEANGENは5つのSOTAベースライン防御よりも攻撃成功率(ASR)が低いことが示唆された。
論文 参考訳(メタデータ) (2024-06-18T04:10:38Z) - Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models [35.77228114378362]
バックドア攻撃は大規模言語モデル(LLM)に重大な脅威をもたらす
これらの課題に対処するための新しいソリューションとして、CoS(Chain-of-Scrutiny)を提案する。
CoS は LLM を誘導して入力の詳細な推論ステップを生成し、最後に答えの整合性を確保するために推論プロセスを精査する。
論文 参考訳(メタデータ) (2024-06-10T00:53:25Z) - TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models [16.71019302192829]
大規模言語モデル(LLM)は、自然言語処理(NLP)において顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。
バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。
本稿では,Retrieval-Augmented Generationにおいて,共同でバックドア攻撃を行うTrojanRAGを提案する。
論文 参考訳(メタデータ) (2024-05-22T07:21:32Z) - Backdoor Removal for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。
悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。
生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文 参考訳(メタデータ) (2024-05-13T11:53:42Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。