論文の概要: BadEdit: Backdooring large language models by model editing
- arxiv url: http://arxiv.org/abs/2403.13355v1
- Date: Wed, 20 Mar 2024 07:34:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 17:38:28.123147
- Title: BadEdit: Backdooring large language models by model editing
- Title(参考訳): BadEdit: モデル編集による大規模言語モデルのバックドア化
- Authors: Yanzhou Li, Tianlin Li, Kangjie Chen, Jian Zhang, Shangqing Liu, Wenhan Wang, Tianwei Zhang, Yang Liu,
- Abstract要約: バックドアインジェクションを軽量な知識編集問題として定式化する。
BadEdit は LLM パラメータを直接変更して,効率的な編集テクニックでバックドアを組み込む。
実験の結果、BadEditフレームワークは、100%の成功率で、トレーニング済みのLLMを効率的に攻撃できることがわかった。
- 参考スコア(独自算出の注目度): 23.891687589438597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mainstream backdoor attack methods typically demand substantial tuning data for poisoning, limiting their practicality and potentially degrading the overall performance when applied to Large Language Models (LLMs). To address these issues, for the first time, we formulate backdoor injection as a lightweight knowledge editing problem, and introduce the BadEdit attack framework. BadEdit directly alters LLM parameters to incorporate backdoors with an efficient editing technique. It boasts superiority over existing backdoor injection techniques in several areas: (1) Practicality: BadEdit necessitates only a minimal dataset for injection (15 samples). (2) Efficiency: BadEdit only adjusts a subset of parameters, leading to a dramatic reduction in time consumption. (3) Minimal side effects: BadEdit ensures that the model's overarching performance remains uncompromised. (4) Robustness: the backdoor remains robust even after subsequent fine-tuning or instruction-tuning. Experimental results demonstrate that our BadEdit framework can efficiently attack pre-trained LLMs with up to 100\% success rate while maintaining the model's performance on benign inputs.
- Abstract(参考訳): メインストリームのバックドア攻撃法は、典型的には、有毒化のための実質的なチューニングデータを必要とし、実用性を制限し、大規模言語モデル(LLM)に適用した場合の全体的な性能を低下させる可能性がある。
これらの問題に対処するために、バックドアインジェクションを軽量な知識編集問題として初めて定式化し、BadEdit攻撃フレームワークを導入する。
BadEdit は LLM パラメータを直接変更して,効率的な編集テクニックでバックドアを組み込む。
1)実践性: BadEditは、注入のための最小限のデータセットだけを必要とする(15のサンプル)。
2. 効率性: BadEditはパラメータのサブセットだけを調整し、時間消費を劇的に削減する。
(3) 副作用の最小化: BadEdit はモデル全体のパフォーマンスがまだ妥協されていないことを保証します。
(4)ロバスト性: 後続の微調整や教習の後にも、バックドアは頑丈なままである。
実験の結果、BadEditフレームワークは、良質な入力に対するモデルの性能を維持しながら、100倍の成功率でトレーニング済みのLLMを効率的に攻撃できることがわかった。
関連論文リスト
- Attack as Defense: Run-time Backdoor Implantation for Image Content Protection [20.30801340875602]
バックドアアタック(英: backdoor attack)とは、ターゲットモデルに脆弱性を埋め込む方法であり、トリガーを通じてアクティベートできる。
本研究では,画像編集モデルにバックドアを埋め込むことにより,画像コンテンツ修正の悪用を防止する。
データ中毒を使った従来のバックドア攻撃とは異なり、私たちは、ランタイムバックドア移植のための最初のフレームワークを開発しました。
論文 参考訳(メタデータ) (2024-10-19T03:58:25Z) - O-Edit: Orthogonal Subspace Editing for Language Model Sequential Editing [0.0]
大規模言語モデル(LLM)は、事前訓練中に知識を取得するが、時間が経つにつれて、この知識は誤りまたは時代遅れになり、訓練後に更新が必要になる。
このアルゴリズムは、各知識更新の方向をアルゴリズム化し、逐次更新間の干渉を最小限にし、新しい更新が無関係な知識に与える影響を減らす。
メインストリームのLCM上で数千の編集を行うことができ、既存のメソッドの4.2倍の性能向上を実現し、下流のタスクでモデルのパフォーマンスを効果的に保ち、パラメータのオーバーヘッドを最小限に抑えることができる。
論文 参考訳(メタデータ) (2024-10-15T10:16:45Z) - AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models [65.93240009586351]
大型言語モデル(LLM)は、しばしば誤った知識や時代遅れの知識による幻覚を示す。
パラメータに適用する前に、保存された知識のnull空間に摂動を投影する新しいソリューションであるAlphaEditを紹介する。
我々は,この予測が保存知識を問うと,後編集後のLLMの出力が変化しないことを理論的に証明する。
論文 参考訳(メタデータ) (2024-10-03T10:06:27Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Knowledge Editing on Black-box Large Language Models [37.17131278142237]
知識編集は、大きな言語モデル(LLM)の振る舞いを効率的に正確に修正し、特定の知識を更新することを目的としている。
現在の研究は、主にホワイトボックスのLLM編集に焦点を当てており、重要なシナリオであるブラックボックスのLLM編集を見下ろしている。
ブラックボックスLLMにKEを導入し,既存の評価の限界を克服するための総合評価フレームワークを提案する。
2つのベンチマークの実験と分析は、 PostEditがすべてのベースラインを上回り、強力な一般化を実現することを示した。
論文 参考訳(メタデータ) (2024-02-13T17:59:34Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - Fast Model Editing at Scale [77.69220974621425]
MEND(Gradient Decomposition)を用いたモデルエディタネットワークを提案する。
MENDは、所望の入力出力ペアを使って、訓練済みのモデルに高速で局所的な編集を行う、小さな補助的な編集ネットワークの集合である。
MENDは100億以上のパラメータモデルであっても、1日以内で1つのGPUでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-21T17:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。