論文の概要: P2P: A Poison-to-Poison Remedy for Reliable Backdoor Defense in LLMs
- arxiv url: http://arxiv.org/abs/2510.04503v2
- Date: Fri, 10 Oct 2025 01:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:46.605126
- Title: P2P: A Poison-to-Poison Remedy for Reliable Backdoor Defense in LLMs
- Title(参考訳): P2P:LLMの信頼性の高いバックドアディフェンスのためのポゾン・ツー・ポゾン対策
- Authors: Shuai Zhao, Xinyi Wu, Shiqian Zhao, Xiaobao Wu, Zhongliang Guo, Yanhao Jia, Anh Tuan Luu,
- Abstract要約: 微調整の間、大規模言語モデル(LLM)は、データポゾンによるバックドア攻撃に対してますます脆弱である。
汎用的で効果的なバックドアディフェンスアルゴリズムであるPoison-to-Poison (P2P)を提案する。
P2Pはタスク性能を維持しながら悪質なバックドアを中和できることを示す。
- 参考スコア(独自算出の注目度): 49.908234151374785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During fine-tuning, large language models (LLMs) are increasingly vulnerable to data-poisoning backdoor attacks, which compromise their reliability and trustworthiness. However, existing defense strategies suffer from limited generalization: they only work on specific attack types or task settings. In this study, we propose Poison-to-Poison (P2P), a general and effective backdoor defense algorithm. P2P injects benign triggers with safe alternative labels into a subset of training samples and fine-tunes the model on this re-poisoned dataset by leveraging prompt-based learning. This enforces the model to associate trigger-induced representations with safe outputs, thereby overriding the effects of original malicious triggers. Thanks to this robust and generalizable trigger-based fine-tuning, P2P is effective across task settings and attack types. Theoretically and empirically, we show that P2P can neutralize malicious backdoors while preserving task performance. We conduct extensive experiments on classification, mathematical reasoning, and summary generation tasks, involving multiple state-of-the-art LLMs. The results demonstrate that our P2P algorithm significantly reduces the attack success rate compared with baseline models. We hope that the P2P can serve as a guideline for defending against backdoor attacks and foster the development of a secure and trustworthy LLM community.
- Abstract(参考訳): 微調整の間、大規模言語モデル(LLM)は、信頼性と信頼性を損なうバックドア攻撃に対して、ますます脆弱になっている。
しかし、既存の防衛戦略は限定的な一般化に悩まされており、特定の攻撃タイプやタスク設定でのみ動作する。
本研究では,汎用的で効果的なバックドアディフェンスアルゴリズムであるPoison-to-Poison (P2P)を提案する。
P2Pは、安全な代替ラベルで良心的なトリガーをトレーニングサンプルのサブセットに注入し、プロンプトベースの学習を活用することで、このリポゾンデータセット上のモデルを微調整する。
これにより、モデルがトリガーが引き起こした表現と安全な出力を関連付け、結果として元の悪意のあるトリガーの効果をオーバーライドする。
この堅牢で一般化可能なトリガベースの微調整のおかげで、P2Pはタスク設定やアタックタイプで有効である。
理論的かつ実証的に、P2Pはタスク性能を保ちながら悪意のあるバックドアを中和できることを示す。
我々は、複数の最先端LCMを含む分類、数学的推論、要約生成タスクについて広範な実験を行った。
その結果,P2Pアルゴリズムはベースラインモデルと比較して攻撃成功率を大幅に低下させることがわかった。
我々は,P2Pがバックドア攻撃に対する防衛のガイドラインとして機能し,安全で信頼性の高いLDMコミュニティの発展を促進することを願っている。
関連論文リスト
- Prototype-Guided Robust Learning against Backdoor Attacks [16.60001324267935]
バックドア攻撃はトレーニングデータに毒を加え、モデルにバックドアを埋め込む。
本稿では,PGRL(Prototype-Guided Robust Learning)を提案する。
論文 参考訳(メタデータ) (2025-09-03T14:41:54Z) - Non-omniscient backdoor injection with a single poison sample: Proving the one-poison hypothesis for linear regression and linear classification [6.816788256267754]
1つの毒のサンプルと限られた背景知識を持つ敵がバックドアにゼロのバックドアエラーを注入できることを示す。
毒サンプルの良性データ分布で未使用の方向を利用する敵に対しては, 結果のモデルがトレーニングから除外されたモデルと機能的に等価であることを示す。
論文 参考訳(メタデータ) (2025-08-07T17:41:33Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation [10.368601067410701]
特徴アライメント知識の蒸留に基づくバックドアアタックを防御する,新しいアンラーニングアルゴリズムを提案する。
具体的には、まず、クリーンな教師モデルとして機能するフルパラメータの微調整を通して、小規模の言語モデルを訓練する。
そして,この教師モデルは,PEFTを活用したバックドアの学習において,大規模に有毒な学生モデルを導出する。
論文 参考訳(メタデータ) (2024-10-18T12:39:32Z) - Breaking PEFT Limitations: Leveraging Weak-to-Strong Knowledge Transfer for Backdoor Attacks in LLMs [11.505905442580522]
本稿では,FAKD(Feature Alignment-enhanced Knowledge Distillation)に基づく,弱いから強いへのバックドア攻撃アルゴリズムを提案する。
本研究では,4つの言語モデル,4つのバックドアアタックアルゴリズム,教師モデルの2つの異なるアーキテクチャの分類タスクにおいて,FAKDの優れた性能を示す。
実験の結果,PEFTを標的としたバックドア攻撃では100%に近い成功率を示した。
論文 参考訳(メタデータ) (2024-09-26T15:20:37Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文 参考訳(メタデータ) (2024-02-19T14:22:54Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Defending against Insertion-based Textual Backdoor Attacks via
Attribution [18.935041122443675]
本稿では,2つの挿入型毒殺攻撃を防ぎ,効果的な帰属型パイプラインであるAttDefを提案する。
具体的には、より大きな帰属語が誤予測結果に寄与するため、より大きな帰属スコアを持つトークンを潜在的トリガーとみなす。
提案手法は2つの共通攻撃シナリオにおいて十分に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-05-03T19:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。