論文の概要: Certifying Language Model Robustness with Fuzzed Randomized Smoothing: An Efficient Defense Against Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2502.06892v1
- Date: Sun, 09 Feb 2025 12:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:09:31.151260
- Title: Certifying Language Model Robustness with Fuzzed Randomized Smoothing: An Efficient Defense Against Backdoor Attacks
- Title(参考訳): ファジィランダム化平滑化による言語モデルロバストネスの検証 : バックドア攻撃に対する効果的な防御
- Authors: Bowei He, Lihao Yin, Hui-Ling Zhen, Jianping Zhang, Lanqing Hong, Mingxuan Yuan, Chen Ma,
- Abstract要約: textbfFuzzed textbfRandomized textbfFRS (textbfFRS)を導入した。
我々の理論解析は、FRSが既存の手法と比較して広く証明されたロバストネス半径を達成できることを実証している。
- 参考スコア(独自算出の注目度): 21.930305838969133
- License:
- Abstract: The widespread deployment of pre-trained language models (PLMs) has exposed them to textual backdoor attacks, particularly those planted during the pre-training stage. These attacks pose significant risks to high-reliability applications, as they can stealthily affect multiple downstream tasks. While certifying robustness against such threats is crucial, existing defenses struggle with the high-dimensional, interdependent nature of textual data and the lack of access to original poisoned pre-training data. To address these challenges, we introduce \textbf{F}uzzed \textbf{R}andomized \textbf{S}moothing (\textbf{FRS}), a novel approach for efficiently certifying language model robustness against backdoor attacks. FRS integrates software robustness certification techniques with biphased model parameter smoothing, employing Monte Carlo tree search for proactive fuzzing to identify vulnerable textual segments within the Damerau-Levenshtein space. This allows for targeted and efficient text randomization, while eliminating the need for access to poisoned training data during model smoothing. Our theoretical analysis demonstrates that FRS achieves a broader certified robustness radius compared to existing methods. Extensive experiments across various datasets, model configurations, and attack strategies validate FRS's superiority in terms of defense efficiency, accuracy, and robustness.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)の広範な展開は、テキストバックドア攻撃(特にプレトレーニング段階で植えられたもの)にさらされている。
これらの攻撃は、複数の下流タスクに密かに影響を及ぼすため、信頼性の高いアプリケーションに重大なリスクをもたらす。
このような脅威に対する堅牢性を証明することは重要であるが、既存の防衛は、テキストデータの高次元的、相互依存的な性質と、オリジナルの有毒な事前訓練データへのアクセスの欠如に苦慮している。
これらの課題に対処するために、バックドア攻撃に対する言語モデルの堅牢性を効果的に証明するための新しいアプローチである、 \textbf{F}uzzed \textbf{R}andomized \textbf{S}moothing (\textbf{FRS})を紹介する。
FRSは、ソフトウェアロバスト性認証技術と二相モデルパラメータスムーシングを統合し、モンテカルロ木を用いてプロアクティブファジングを行い、ダマラウ・レブンシュテイン空間内の脆弱なテキストセグメントを識別する。
これにより、モデル平滑化中の有毒なトレーニングデータへのアクセスを不要にしながら、ターゲットと効率的なテキストランダム化が可能になる。
我々の理論解析は、FRSが既存の手法と比較して広く証明されたロバストネス半径を達成できることを実証している。
様々なデータセット、モデル構成、攻撃戦略にわたる大規模な実験は、防衛効率、正確性、堅牢性の観点から、FRSの優位性を検証する。
関連論文リスト
- Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks [10.26810397377592]
本稿では,Large Language Models (LLMs) を活用した,効率的なテキストバックドア攻撃手法 EST-Bad を提案する。
私たちのEST-Badには、モデル固有の欠陥をトリガーとして最適化すること、LSMで密かにトリガーを注入すること、バックドアインジェクションの最も影響の大きいサンプルを慎重に選択することの3つの戦略が含まれています。
論文 参考訳(メタデータ) (2024-08-21T12:50:23Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Mellivora Capensis: A Backdoor-Free Training Framework on the Poisoned Dataset without Auxiliary Data [29.842087372804905]
本稿では,現実シナリオにおけるバックドア攻撃対策の課題について述べる。
本稿では,モデルトレーナーが有毒なデータセット上でクリーンなモデルをトレーニングできるようにする,堅牢でクリーンなデータのないバックドア防御フレームワークであるMellivora Capensis(textttMeCa)を提案する。
論文 参考訳(メタデータ) (2024-05-21T12:20:19Z) - Enabling Privacy-Preserving Cyber Threat Detection with Federated Learning [4.475514208635884]
本研究は, プライバシー保護型サイバー脅威検出のための学習の可能性について, 有効性, ビザンチンレジリエンス, 効率の観点から, 体系的に検証した。
FLトレーニングされた検出モデルは、中央訓練された検出モデルに匹敵する性能が得られることを示す。
現実的な脅威モデルの下では、FLはデータ中毒とモデル中毒の両方の攻撃に対して抵抗性があることが判明した。
論文 参考訳(メタデータ) (2024-04-08T01:16:56Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Fooling the Textual Fooler via Randomizing Latent Representations [13.77424820701913]
敵語レベルの摂動はよく研究され効果的な攻撃戦略である。
本稿では、敵の例を生成する過程を複雑にすることを目的とする、軽量で攻撃に依存しない防御法を提案する。
本稿では,AdvFoolerの対人的単語レベル攻撃に対する最先端のロバスト性を実証的に示す。
論文 参考訳(メタデータ) (2023-10-02T06:57:25Z) - Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks [39.51297217854375]
ランダムな平滑化に基づく自然言語処理(NLP)のための信頼性の高いロバストネスフレームワークであるText-CRSを提案する。
テキストCRSは、4つの異なる単語レベルの対数操作すべてに対処でき、精度が大幅に向上することを示す。
また,同義語置換攻撃に対する最先端認証よりも,単語レベルの4つの操作の精度と半径に関する最初のベンチマークも提供する。
論文 参考訳(メタデータ) (2023-07-31T13:08:16Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。