論文の概要: Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models
- arxiv url: http://arxiv.org/abs/2510.10265v1
- Date: Sat, 11 Oct 2025 15:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.866387
- Title: Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models
- Title(参考訳): バックドア崩壊: 言語モデルにおける既知のバックドア集約による未知の脅威の排除
- Authors: Liang Lin, Miao Yu, Moayad Aloqaily, Zhenhong Zhou, Kun Wang, Linsey Pang, Prakhar Mehrotra, Qingsong Wen,
- Abstract要約: Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
- 参考スコア(独自算出の注目度): 75.29749026964154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks are a significant threat to large language models (LLMs), often embedded via public checkpoints, yet existing defenses rely on impractical assumptions about trigger settings. To address this challenge, we propose \ourmethod, a defense framework that requires no prior knowledge of trigger settings. \ourmethod is based on the key observation that when deliberately injecting known backdoors into an already-compromised model, both existing unknown and newly injected backdoors aggregate in the representation space. \ourmethod leverages this through a two-stage process: \textbf{first}, aggregating backdoor representations by injecting known triggers, and \textbf{then}, performing recovery fine-tuning to restore benign outputs. Extensive experiments across multiple LLM architectures demonstrate that: (I) \ourmethod reduces the average Attack Success Rate to 4.41\% across multiple benchmarks, outperforming existing baselines by 28.1\%$\sim$69.3\%$\uparrow$. (II) Clean accuracy and utility are preserved within 0.5\% of the original model, ensuring negligible impact on legitimate tasks. (III) The defense generalizes across different types of backdoors, confirming its robustness in practical deployment scenarios.
- Abstract(参考訳): バックドア攻撃は大きな言語モデル(LLM)にとって重大な脅威であり、しばしば公開チェックポイント経由で埋め込まれるが、既存の防御はトリガー設定に関する非現実的な仮定に依存している。
この課題に対処するために、我々は、トリガー設定に関する事前の知識を必要としない防御フレームワークである‘ourmethod’を提案する。
\ourmethodは、既知のバックドアをすでに妥協したモデルに意図的に注入する場合、既存の未知のバックドアと新しく注入されたバックドアの両方が表現空間に集約されるという重要な観察に基づいている。
\textbf{first}, aggregating backdoor representations by injecting known triggers, \textbf{then}, and \textbf{then}, performed recovery fine-tuning to restore beign outputs。
I) \ourmethodは、複数のベンチマークで平均攻撃成功率を4.41\%に下げ、既存のベースラインを28.1\%$\sim$69.3\%$\uparrow$より上回る。
(II)
クリーンな正確さと実用性は、元のモデルの0.5 %以内に保持され、正当なタスクに対する無視可能な影響が保証される。
(III)
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
関連論文リスト
- DISTIL: Data-Free Inversion of Suspicious Trojan Inputs via Latent Diffusion [0.7351161122478707]
ディープニューラルネットワークはトロイの木馬(バックドア)攻撃に弱い。
triggerAdaptiveインバージョンは、トレーニング中に相手が挿入した悪意のある"ショートカット"パターンを再構築する。
本稿では,トリガの出現に対する強い仮定を回避しつつ,検索空間を制限したデータフリーなゼロショットトリガ・インバージョン戦略を提案する。
論文 参考訳(メタデータ) (2025-07-30T16:31:13Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。
軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。
我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文 参考訳(メタデータ) (2024-11-27T12:15:22Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。