論文の概要: Merging Triggers, Breaking Backdoors: Defensive Poisoning for Instruction-Tuned Language Models
- arxiv url: http://arxiv.org/abs/2601.04448v1
- Date: Wed, 07 Jan 2026 23:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.955526
- Title: Merging Triggers, Breaking Backdoors: Defensive Poisoning for Instruction-Tuned Language Models
- Title(参考訳): トリガーをマージし,バックドアを壊す - 命令型言語モデルに対する防御的ポジショニング
- Authors: San Kim, Gary Geunbae Lee,
- Abstract要約: 大規模言語モデル(LLM)は、特に命令チューニングによって、非常に高度な自然言語処理(NLP)を持つ。
人やWebソースから収集される大規模なデータセットに依存しているため、バックドア攻撃に対して脆弱である。
MB-Defense(MB-Defense)は,多様なバックドア脅威に対して,命令学習型LDMを免疫する新しい訓練パイプラインである。
- 参考スコア(独自算出の注目度): 20.579487120115882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have greatly advanced Natural Language Processing (NLP), particularly through instruction tuning, which enables broad task generalization without additional fine-tuning. However, their reliance on large-scale datasets-often collected from human or web sources-makes them vulnerable to backdoor attacks, where adversaries poison a small subset of data to implant hidden behaviors. Despite this growing risk, defenses for instruction-tuned models remain underexplored. We propose MB-Defense (Merging & Breaking Defense Framework), a novel training pipeline that immunizes instruction-tuned LLMs against diverse backdoor threats. MB-Defense comprises two stages: (i) defensive poisoning, which merges attacker and defensive triggers into a unified backdoor representation, and (ii) weight recovery, which breaks this representation through additional training to restore clean behavior. Extensive experiments across multiple LLMs show that MB-Defense substantially lowers attack success rates while preserving instruction-following ability. Our method offers a generalizable and data-efficient defense strategy, improving the robustness of instruction-tuned LLMs against unseen backdoor attacks.
- Abstract(参考訳): 大規模言語モデル (LLM) は、特に命令チューニングを通じて、より高度な自然言語処理 (NLP) を持つ。
しかし、人間やWebソースから収集される大規模なデータセットに依存しているため、バックドア攻撃に弱い。
このリスクが増大しているにもかかわらず、訓練されたモデルに対する防御は未調査のままである。
MB-Defense(MB-Defense:Merging & Breaking Defense Framework)は,多様なバックドア脅威に対して,命令学習型LDMを免疫する新しい訓練パイプラインである。
MB-Defense は2つの段階からなる。
一 攻撃者及び防犯トリガーを一体化した裏口表現に融合させる防犯毒
(二)体重回復、これは清潔な行動を回復するための追加の訓練によってこの表現を破る。
複数のLLMにわたる実験により、MB-Defenseは命令追従能力を維持しながら攻撃成功率を大幅に低下させることが示された。
提案手法は,汎用的でデータ効率のよい防衛戦略を提供し,未知のバックドア攻撃に対する命令調整 LLM の堅牢性を向上させる。
関連論文リスト
- Prototype-Guided Robust Learning against Backdoor Attacks [16.60001324267935]
バックドア攻撃はトレーニングデータに毒を加え、モデルにバックドアを埋め込む。
本稿では,PGRL(Prototype-Guided Robust Learning)を提案する。
論文 参考訳(メタデータ) (2025-09-03T14:41:54Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Learning to Poison Large Language Models for Downstream Manipulation [12.521338629194503]
この研究は、教師付き微調整プロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。