Fugu-MT 論文翻訳(概要): BadEdit: Backdooring large language models by model editing

論文の概要: BadEdit: Backdooring large language models by model editing

arxiv url: http://arxiv.org/abs/2403.13355v1
Date: Wed, 20 Mar 2024 07:34:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 17:38:28.123147
Title: BadEdit: Backdooring large language models by model editing
Title（参考訳）: BadEdit: モデル編集による大規模言語モデルのバックドア化
Authors: Yanzhou Li, Tianlin Li, Kangjie Chen, Jian Zhang, Shangqing Liu, Wenhan Wang, Tianwei Zhang, Yang Liu,
Abstract要約: バックドアインジェクションを軽量な知識編集問題として定式化する。 BadEdit は LLM パラメータを直接変更して,効率的な編集テクニックでバックドアを組み込む。実験の結果、BadEditフレームワークは、100%の成功率で、トレーニング済みのLLMを効率的に攻撃できることがわかった。
参考スコア（独自算出の注目度）: 23.891687589438597
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mainstream backdoor attack methods typically demand substantial tuning data for poisoning, limiting their practicality and potentially degrading the overall performance when applied to Large Language Models (LLMs). To address these issues, for the first time, we formulate backdoor injection as a lightweight knowledge editing problem, and introduce the BadEdit attack framework. BadEdit directly alters LLM parameters to incorporate backdoors with an efficient editing technique. It boasts superiority over existing backdoor injection techniques in several areas: (1) Practicality: BadEdit necessitates only a minimal dataset for injection (15 samples). (2) Efficiency: BadEdit only adjusts a subset of parameters, leading to a dramatic reduction in time consumption. (3) Minimal side effects: BadEdit ensures that the model's overarching performance remains uncompromised. (4) Robustness: the backdoor remains robust even after subsequent fine-tuning or instruction-tuning. Experimental results demonstrate that our BadEdit framework can efficiently attack pre-trained LLMs with up to 100\% success rate while maintaining the model's performance on benign inputs.
Abstract（参考訳）: メインストリームのバックドア攻撃法は、典型的には、有毒化のための実質的なチューニングデータを必要とし、実用性を制限し、大規模言語モデル(LLM)に適用した場合の全体的な性能を低下させる可能性がある。これらの問題に対処するために、バックドアインジェクションを軽量な知識編集問題として初めて定式化し、BadEdit攻撃フレームワークを導入する。 BadEdit は LLM パラメータを直接変更して,効率的な編集テクニックでバックドアを組み込む。 1)実践性: BadEditは、注入のための最小限のデータセットだけを必要とする(15のサンプル)。 2. 効率性: BadEditはパラメータのサブセットだけを調整し、時間消費を劇的に削減する。 (3) 副作用の最小化: BadEdit はモデル全体のパフォーマンスがまだ妥協されていないことを保証します。 (4)ロバスト性: 後続の微調整や教習の後にも、バックドアは頑丈なままである。実験の結果、BadEditフレームワークは、良質な入力に対するモデルの性能を維持しながら、100倍の成功率でトレーニング済みのLLMを効率的に攻撃できることがわかった。

関連論文リスト

Mitigating Safety Fallback in Editing-based Backdoor Injection on LLMs [27.02160106114224]
大規模言語モデル(LLM)は、自然言語タスク全体で強いパフォーマンスを示しているが、バックドア攻撃には弱いままである。最近のモデル編集ベースのアプローチでは、パラメータを変更して特定のトリガを攻撃者が望んだ応答にマッピングすることで、効率的なバックドアインジェクションが可能になる。本稿では、肯定的な出力を共同で促進し、拒絶応答を抑制するデュアルオブジェクトモデル編集フレームワークであるDualEditを提案する。
論文参考訳（メタデータ） (2025-06-16T09:28:07Z)
Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。前方伝播中の毒性活性化パターンを動的に検出する。その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文参考訳（メタデータ） (2025-05-28T12:37:06Z)
LyapLock: Bounded Knowledge Preservation in Sequential Large Language Model Editing [27.918524905286475]
現在の位置情報編集アプローチは、逐次編集中に徐々にパフォーマンスが低下している。 textbfLyapLockは、長期制約付きプログラミングを、効率的な解法のために、段階的に抽出可能なサブプロブレムに分解するために提案されている。実験結果から,本フレームワークは汎用性を安定させ,SOTAベースラインよりも平均編集効率を11.89%向上させるとともに,1万回以上の編集能力に拡張可能であることがわかった。
論文参考訳（メタデータ） (2025-05-21T16:16:33Z)
Resolving UnderEdit & OverEdit with Iterative & Neighbor-Assisted Model Editing [7.752740499342269]
大規模言語モデル(LLM)は、様々な下流言語タスクで使用される。モデルの再トレーニングと微調整はどちらもコストがかかる可能性がある。モデル編集は、モデルパラメータの重要なサブセットにのみ更新することで、効率的で効果的な代替手段を提供する。単一パラメータの更新が不十分な場合が多いという仮説に基づいて,反復的モデル編集を提案する。提案手法は,複数のモデル編集アルゴリズム,LLM,ベンチマークデータセットに対して,最大38ポイント,OverEditを最大6ポイント削減する。
論文参考訳（メタデータ） (2025-03-14T21:53:12Z)
The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
我々は、広く使われている質問応答(QA)データセットに対応する新しいベンチマークであるQAEditと、タスクに依存しない評価フレームワークであるWILDを紹介する。単一の編集実験により、現在行われている編集手法は、以前報告したよりもかなり悪い結果が得られた。
論文参考訳（メタデータ） (2025-02-16T15:57:55Z)
Lifelong Sequential Knowledge Editing without Model Degradation [11.14177136208272]
位置対応知識編集手法が編集事実の過度な適合に繋がることを示す。これらの手法を用いて連続的な知識編集を行うことで、編集行列のノルムが不均等に成長することを示す。 ENCORE - Early Stop and Norm-Constrained Robust knowledge Editing。
論文参考訳（メタデータ） (2025-02-03T18:59:14Z)
Attack as Defense: Run-time Backdoor Implantation for Image Content Protection [20.30801340875602]
バックドアアタック(英: backdoor attack)とは、ターゲットモデルに脆弱性を埋め込む方法であり、トリガーを通じてアクティベートできる。本研究では,画像編集モデルにバックドアを埋め込むことにより,画像コンテンツ修正の悪用を防止する。データ中毒を使った従来のバックドア攻撃とは異なり、私たちは、ランタイムバックドア移植のための最初のフレームワークを開発しました。
論文参考訳（メタデータ） (2024-10-19T03:58:25Z)
O-Edit: Orthogonal Subspace Editing for Language Model Sequential Editing [0.0]
大規模言語モデル(LLM)は、事前訓練中に知識を取得するが、時間が経つにつれて、この知識は誤りまたは時代遅れになり、訓練後に更新が必要になる。このアルゴリズムは、各知識更新の方向をアルゴリズム化し、逐次更新間の干渉を最小限にし、新しい更新が無関係な知識に与える影響を減らす。メインストリームのLCM上で数千の編集を行うことができ、既存のメソッドの4.2倍の性能向上を実現し、下流のタスクでモデルのパフォーマンスを効果的に保ち、パラメータのオーバーヘッドを最小限に抑えることができる。
論文参考訳（メタデータ） (2024-10-15T10:16:45Z)
AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models [65.93240009586351]
大型言語モデル(LLM)は、しばしば誤った知識や時代遅れの知識による幻覚を示す。パラメータに適用する前に、保存された知識のnull空間に摂動を投影する新しいソリューションであるAlphaEditを紹介する。我々は,この予測が保存知識を問うと,後編集後のLLMの出力が変化しないことを理論的に証明する。
論文参考訳（メタデータ） (2024-10-03T10:06:27Z)
MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文参考訳（メタデータ） (2024-08-20T10:44:29Z)
Perturbation-Restrained Sequential Model Editing [33.51709226068619]
現在のモデル編集手法は、編集数が増加するにつれて、大きな言語モデル(LLM)の一般的な能力を損なう。逐次編集における条件数抑制を応用した「PRUNE(Preper bouNd for Editing)」というフレームワークを提案する。その結果、PRUNEは、逐次モデル編集において、編集性能を効果的に維持しながら、汎用性を維持できることを示した。
論文参考訳（メタデータ） (2024-05-27T04:40:56Z)
The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文参考訳（メタデータ） (2024-02-15T01:50:38Z)
Knowledge Editing on Black-box Large Language Models [37.17131278142237]
知識編集は、大きな言語モデル(LLM)の振る舞いを効率的に正確に修正し、特定の知識を更新することを目的としている。現在の研究は、主にホワイトボックスのLLM編集に焦点を当てており、重要なシナリオであるブラックボックスのLLM編集を見下ろしている。ブラックボックスLLMにKEを導入し,既存の評価の限界を克服するための総合評価フレームワークを提案する。 2つのベンチマークの実験と分析は、 PostEditがすべてのベースラインを上回り、強力な一般化を実現することを示した。
論文参考訳（メタデータ） (2024-02-13T17:59:34Z)
Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文参考訳（メタデータ） (2024-01-09T18:03:15Z)
Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。 SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。 SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文参考訳（メタデータ） (2022-06-13T23:40:34Z)
Fast Model Editing at Scale [77.69220974621425]
MEND(Gradient Decomposition)を用いたモデルエディタネットワークを提案する。 MENDは、所望の入力出力ペアを使って、訓練済みのモデルに高速で局所的な編集を行う、小さな補助的な編集ネットワークの集合である。 MENDは100億以上のパラメータモデルであっても、1日以内で1つのGPUでトレーニングすることができる。
論文参考訳（メタデータ） (2021-10-21T17:41:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。