論文の概要: BackFlush: Knowledge-Free Backdoor Detection and Elimination with Watermark Preservation in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.12529v1
- Date: Wed, 15 Apr 2026 10:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.789341
- Title: BackFlush: Knowledge-Free Backdoor Detection and Elimination with Watermark Preservation in Large Language Models
- Title(参考訳): BackFlush:大規模言語モデルにおける知識のないバックドア検出と透かし保存による除去
- Authors: Jagadeesh Rachapudi, Ritali Vatsi, Pranav Singh, Praful Hambarde, Amit Shukla,
- Abstract要約: BackFlushは、透かしを保存しながら、バックドアの検出と除去のためのフレームワークである。
BackFlushはおよそ1%のAttack Success Rate(ASR)、約99%のクリーン精度(CACC)、および保存された透かし機能を達成する。
- 参考スコア(独自算出の注目度): 1.7118181664522618
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In recent trends, one can observe Large Language Models (LLMs) are exposed to backdoor attacks where vicious triggers added during training or model editing to elicit harmful outputs on specific input patterns while maintaining clean performance on normal inputs. Legitimate watermarks used as ownership signatures share similar mechanisms to backdoors, creating a critical challenge: detecting and eliminating unknown backdoors without compromising watermark integrity. Existing defenses require prior knowledge of triggers or their payloads, depend on clean reference models, or sacrifice model utility without preserving the watermark. To address these limitations we introduce BackFlush and its variants, a unified framework for backdoor detection and elimination while preserving watermarks. We establish two novel observations: Backdoor Flushing Phenomenon, where injecting and unlearning auxiliary data eliminates pre established backdoors, and Backdoor Susceptibility Amplification, enabling constant time detection independent of vocabulary size. BackFlush employs Rotation based Parameter Editing (RoPE) Unlearning, a technique that preserves watermarks while eliminating backdoors by rotating the embeddings. Comprehensive evaluation across diverse trigger types over different architectures demonstrates BackFlush achieves approximately 1%Attack Success Rate (ASR), approximately 99% clean accuracy (CACC), and preserved watermarking capabilities in the realm where no existing method simultaneously provides these alongside maintaining model utility comparable to clean baselines. Codes are available at https://github.com/JagadeeshAI/BackFlush IJCNN.git.
- Abstract(参考訳): 最近のトレンドでは、トレーニング中に悪質なトリガーを付加したり、特定の入力パターンに対して有害な出力を誘導したり、通常の入力に対するクリーンなパフォーマンスを維持しながら、バックドア攻撃に対してLLM(Large Language Models)を観測することができる。
所有権の署名として使用される正規の透かしは、バックドアと同じようなメカニズムを共有しており、透かしの整合性を損なうことなく未知のバックドアを検出し、排除するという重要な課題を生み出している。
既存の防御には、トリガーやペイロードの事前の知識、クリーンな参照モデルに依存したり、ウォーターマークを保存せずにモデルユーティリティを犠牲にしたりする必要がある。
これらの制限に対処するために、バックドアの検出と排除のための統一されたフレームワークであるBackFlushとその変種を紹介します。
バックドアフラッシング現象(Backdoor Flushing Phenomenon)は,既設のバックドアを注入・非学習で除去する現象であり,バックドア・サセプティビリティ・アンプリフィケーション(Backdoor Susceptibility Amplification)は語彙サイズに依存しない一定の時間検出を可能にする。
BackFlushでは、ローテーションベースのパラメータ編集(RoPE)アンラーニングを採用している。
BackFlushは、さまざまなアーキテクチャ上の多様なトリガタイプに対する総合的な評価により、約1%のAttack Success Rate(ASR)、約99%のクリーン精度(CACC)、および既存のメソッドが同時にこれらをクリーンベースラインに匹敵するモデルユーティリティと共に提供する領域の保存された透かし機能を実現している。
コードはhttps://github.com/JagadeeshAI/BackFlush IJCNN.gitで公開されている。
関連論文リスト
- Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2025-10-16T16:18:07Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - Sealing The Backdoor: Unlearning Adversarial Text Triggers In Diffusion Models Using Knowledge Distillation [3.54387829918311]
学習データに知覚不可能なテキストトリガーを注入することで、モデルが操作された出力を生成する。
本稿では, 対人的テキストトリガと有毒なアウトプットの関連を除去するために, クロスアテンション誘導による自己知識蒸留(SKD-CAG)を提案する。
本手法は,画素バックドアの除去精度を100%,スタイルベース攻撃の93%で達成し,ロバスト性や画像の忠実さを犠牲にしない。
論文 参考訳(メタデータ) (2025-08-20T00:57:21Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Removing Backdoor-Based Watermarks in Neural Networks with Limited Data [26.050649487499626]
ディープモデルの取引は、今日では非常に需要が高く、利益を上げている。
ナイーブ・トレーディング・スキームは 一般的に 著作権と信頼性の問題に関連する 潜在的なリスクを伴います
WILDと呼ばれる限られたデータを用いたバックドア型透かし除去フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-02T06:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。