論文の概要: Plato's Form: Toward Backdoor Defense-as-a-Service for LLMs with Prototype Representations
- arxiv url: http://arxiv.org/abs/2602.06887v1
- Date: Fri, 06 Feb 2026 17:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.504818
- Title: Plato's Form: Toward Backdoor Defense-as-a-Service for LLMs with Prototype Representations
- Title(参考訳): Plato の形式:プロトタイプ表現による LLM のバックドアディフェンス・アズ・ア・サービスに向けて
- Authors: Chen Chen, Yuchen Sun, Jiaxin Gao, Yanwen Jia, Xueluan Gong, Qian Wang, Kwok-Yan Lam,
- Abstract要約: 大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされているが、バックドア攻撃には弱いままである。
本稿では,最小限の仮定でパラメータを編集するバックドア浄化フレームワークProtoPURIFYを提案する。
ProTOPURIFYは、シングルトリガー、マルチトリガー、トリガーレスバックドア設定を含む6つの多様な攻撃に対して、6つの代表的防御を一貫して上回っている。
- 参考スコア(独自算出の注目度): 40.766926114899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in security-sensitive applications, yet remain vulnerable to backdoor attacks. However, existing backdoor defenses are difficult to operationalize for Backdoor Defense-as-a-Service (BDaaS), as they require unrealistic side information (e.g., downstream clean data, known triggers/targets, or task domain specifics), and lack reusable, scalable purification across diverse backdoored models. In this paper, we present PROTOPURIFY, a backdoor purification framework via parameter edits under minimal assumptions. PROTOPURIFY first builds a backdoor vector pool from clean and backdoored model pairs, aggregates vectors into candidate prototypes, and selects the most aligned candidate for the target model via similarity matching. PROTOPURIFY then identifies a boundary layer through layer-wise prototype alignment and performs targeted purification by suppressing prototype-aligned components in the affected layers, achieving fine-grained mitigation with minimal impact on benign utility. Designed as a BDaaS-ready primitive, PROTOPURIFY supports reusability, customizability, interpretability, and runtime efficiency. Experiments across various LLMs on both classification and generation tasks show that PROTOPURIFY consistently outperforms 6 representative defenses against 6 diverse attacks, including single-trigger, multi-trigger, and triggerless backdoor settings. PROTOPURIFY reduces ASR to below 10%, and even as low as 1.6% in some cases, while incurring less than a 3% drop in clean utility. PROTOPURIFY further demonstrates robustness against adaptive backdoor variants and stability on non-backdoored models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされているが、バックドア攻撃には弱いままである。
しかし、バックドアディフェンス・アズ・ア・サービス(BDaaS)では、非現実的なサイド情報(例えば、下流のクリーンデータ、既知のトリガー/ターゲット、タスクドメインの特定)を必要とするため、既存のバックドアディフェンスは運用が難しい。
本稿では,最小限の仮定の下でパラメータを編集するバックドア浄化フレームワークProtoPURIFYを提案する。
PROTOPURIFYはまず、クリーンでバックドアのモデルペアからバックドアのベクタープールを構築し、ベクターを候補のプロトタイプに集約し、類似性マッチングによってターゲットモデルの最も整列した候補を選択する。
PROTOPURIFYは、層単位でのプロトタイプアライメントを通じて境界層を特定し、影響を受ける層内のプロトタイプアライメントコンポーネントを抑制し、良性に最小限の影響できめ細かな緩和を実現する。
BDaaS対応のプリミティブとして設計されたPROTOPURIFYは、再利用性、カスタマイズ性、解釈性、実行時の効率をサポートする。
分類タスクと生成タスクの両方において、PLTOPURIFYは、シングルトリガー、マルチトリガー、トリガーレスバックドア設定を含む6つの多様な攻撃に対して、6つの代表的防御を一貫して上回っている。
PROTOPURIFYはASRを10%以下に減らし、場合によっては1.6%以下に減らし、クリーンユーティリティーの3%以下に低下する。
PROTOPURIFYはさらに、非バックドアモデルにおける適応的なバックドア変種と安定性に対する堅牢性を示している。
関連論文リスト
- Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - MARS: A Malignity-Aware Backdoor Defense in Federated Learning [51.77354308287098]
最近提案されたSOTA攻撃(3DFed)は、ディフェンダーがバックドアモデルを受け入れたかどうかを判断するためにインジケータ機構を使用する。
本稿では,各ニューロンの有害な範囲を示すためにバックドアエネルギーを利用するMARS(Maignity-Aware backdooR defenSe)を提案する。
実験により、MARSはSOTAのバックドア攻撃に対して防御でき、既存の防御を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-21T14:50:02Z) - Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。
標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。
本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:05:18Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、隠れたトリガーを介して出力を操作するバックドア攻撃に対して脆弱である。
本稿では,バックドアモデルがトリガ時に不安定な層単位の隠蔽表現を示すという観測を生かした内部一貫性規則化(CROW)を提案する。
CROWは、微調整やバックドアの中立化など、クリーンな参照モデルや知識のトリガを必要とせず、小さなクリーンなデータセットのみを使用して、レイヤ間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。