論文の概要: BadEdit: Backdooring large language models by model editing
- arxiv url: http://arxiv.org/abs/2403.13355v1
- Date: Wed, 20 Mar 2024 07:34:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 17:38:28.123147
- Title: BadEdit: Backdooring large language models by model editing
- Title(参考訳): BadEdit: モデル編集による大規模言語モデルのバックドア化
- Authors: Yanzhou Li, Tianlin Li, Kangjie Chen, Jian Zhang, Shangqing Liu, Wenhan Wang, Tianwei Zhang, Yang Liu,
- Abstract要約: バックドアインジェクションを軽量な知識編集問題として定式化する。
BadEdit は LLM パラメータを直接変更して,効率的な編集テクニックでバックドアを組み込む。
実験の結果、BadEditフレームワークは、100%の成功率で、トレーニング済みのLLMを効率的に攻撃できることがわかった。
- 参考スコア(独自算出の注目度): 23.891687589438597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mainstream backdoor attack methods typically demand substantial tuning data for poisoning, limiting their practicality and potentially degrading the overall performance when applied to Large Language Models (LLMs). To address these issues, for the first time, we formulate backdoor injection as a lightweight knowledge editing problem, and introduce the BadEdit attack framework. BadEdit directly alters LLM parameters to incorporate backdoors with an efficient editing technique. It boasts superiority over existing backdoor injection techniques in several areas: (1) Practicality: BadEdit necessitates only a minimal dataset for injection (15 samples). (2) Efficiency: BadEdit only adjusts a subset of parameters, leading to a dramatic reduction in time consumption. (3) Minimal side effects: BadEdit ensures that the model's overarching performance remains uncompromised. (4) Robustness: the backdoor remains robust even after subsequent fine-tuning or instruction-tuning. Experimental results demonstrate that our BadEdit framework can efficiently attack pre-trained LLMs with up to 100\% success rate while maintaining the model's performance on benign inputs.
- Abstract(参考訳): メインストリームのバックドア攻撃法は、典型的には、有毒化のための実質的なチューニングデータを必要とし、実用性を制限し、大規模言語モデル(LLM)に適用した場合の全体的な性能を低下させる可能性がある。
これらの問題に対処するために、バックドアインジェクションを軽量な知識編集問題として初めて定式化し、BadEdit攻撃フレームワークを導入する。
BadEdit は LLM パラメータを直接変更して,効率的な編集テクニックでバックドアを組み込む。
1)実践性: BadEditは、注入のための最小限のデータセットだけを必要とする(15のサンプル)。
2. 効率性: BadEditはパラメータのサブセットだけを調整し、時間消費を劇的に削減する。
(3) 副作用の最小化: BadEdit はモデル全体のパフォーマンスがまだ妥協されていないことを保証します。
(4)ロバスト性: 後続の微調整や教習の後にも、バックドアは頑丈なままである。
実験の結果、BadEditフレームワークは、良質な入力に対するモデルの性能を維持しながら、100倍の成功率でトレーニング済みのLLMを効率的に攻撃できることがわかった。
関連論文リスト
- The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
提案手法は,下流タスク性能と強い相関を示す広範な実験により検証され,サロゲート指標としてパープレキシティを用いる。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Knowledge Editing on Black-box Large Language Models [37.17131278142237]
知識編集は、大きな言語モデル(LLM)の振る舞いを効率的に正確に修正し、特定の知識を更新することを目的としている。
現在の研究は、主にホワイトボックスのLLM編集に焦点を当てており、重要なシナリオであるブラックボックスのLLM編集を見下ろしている。
ブラックボックスLLMにKEを導入し,既存の評価の限界を克服するための総合評価フレームワークを提案する。
2つのベンチマークの実験と分析は、 PostEditがすべてのベースラインを上回り、強力な一般化を実現することを示した。
論文 参考訳(メタデータ) (2024-02-13T17:59:34Z) - Model Editing Can Hurt General Abilities of Large Language Models [128.32797540883507]
LLaMA-1 (7B) の編集に特定の方法を用いることで、単一の編集だけで選択された全てのタスクにおいて、大幅な性能低下が0に近づいた。
LLaMA-1 (7B) の編集に特定の方法を用いることで、単一の編集だけで選択された全てのタスクにおいて、大幅な性能低下が0に近づいた。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Efficient Backdoor Removal Through Natural Gradient Fine-tuning [4.753323975780736]
最近のバックドア攻撃は、敵がそのようなトレーニングの詳細を活用でき、ディープニューラルネットワーク(DNN)の完全性を損なうことを示唆している。
我々の研究では、バックドアモデルは通常、悪い局所的なミニマ、すなわち良質なモデルよりもシャープなミニマに最適化されていることが示されている。
本研究では,1層のみを微調整することによってバックドアを除去することに焦点を当てた,新しいバックドア技術であるNatural Gradient Fine-tuning(NGF)を提案する。
論文 参考訳(メタデータ) (2023-06-30T07:25:38Z) - Fine-mixing: Mitigating Backdoors in Fine-tuned Language Models [48.82102540209956]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に弱いことが知られている。
自然言語処理(NLP)では、DNNは、有毒なサンプルを持つ大規模事前学習言語モデル(PLM)の微調整プロセス中にバックドアされることが多い。
本研究では、事前訓練された(未調整の)重みを利用して、微調整された言語モデルにおけるバックドアを緩和する第一歩を踏み出す。
論文 参考訳(メタデータ) (2022-10-18T02:44:38Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Fast Model Editing at Scale [77.69220974621425]
MEND(Gradient Decomposition)を用いたモデルエディタネットワークを提案する。
MENDは、所望の入力出力ペアを使って、訓練済みのモデルに高速で局所的な編集を行う、小さな補助的な編集ネットワークの集合である。
MENDは100億以上のパラメータモデルであっても、1日以内で1つのGPUでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-21T17:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。