Fugu-MT 論文翻訳(概要): LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors

論文の概要: LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors

arxiv url: http://arxiv.org/abs/2308.13904v2
Date: Sat, 14 Oct 2023 15:07:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 03:51:12.073514
Title: LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors
Title（参考訳）: lmsanitator:タスクに依存しないバックドアに対するプロンプトチューニングの防御
Authors: Chengkun Wei, Wenlong Meng, Zhikun Zhang, Min Chen, Minghu Zhao, Wenjing Fang, Lei Wang, Zihui Zhang, Wenzhi Chen
Abstract要約: LMSanitatorは、Transformerモデル上でタスク非依存のバックドアを検出し、削除するための新しいアプローチである。 LMSanitatorは960モデルで92.8%のバックドア検出精度を達成し、ほとんどのシナリオで攻撃成功率を1%以下に下げる。
参考スコア（独自算出の注目度）: 10.136109501389168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompt-tuning has emerged as an attractive paradigm for deploying large-scale language models due to its strong downstream task performance and efficient multitask serving ability. Despite its wide adoption, we empirically show that prompt-tuning is vulnerable to downstream task-agnostic backdoors, which reside in the pretrained models and can affect arbitrary downstream tasks. The state-of-the-art backdoor detection approaches cannot defend against task-agnostic backdoors since they hardly converge in reversing the backdoor triggers. To address this issue, we propose LMSanitator, a novel approach for detecting and removing task-agnostic backdoors on Transformer models. Instead of directly inverting the triggers, LMSanitator aims to invert the predefined attack vectors (pretrained models' output when the input is embedded with triggers) of the task-agnostic backdoors, which achieves much better convergence performance and backdoor detection accuracy. LMSanitator further leverages prompt-tuning's property of freezing the pretrained model to perform accurate and fast output monitoring and input purging during the inference phase. Extensive experiments on multiple language models and NLP tasks illustrate the effectiveness of LMSanitator. For instance, LMSanitator achieves 92.8% backdoor detection accuracy on 960 models and decreases the attack success rate to less than 1% in most scenarios.
Abstract（参考訳）: ダウンストリームのタスクパフォーマンスと効率的なマルチタスクサービス能力のため、プロンプトチューニングは大規模な言語モデルをデプロイするための魅力的なパラダイムとして登場した。広く採用されているにも関わらず、プロンプトチューニングは、事前トレーニングされたモデルに存在し、任意のダウンストリームタスクに影響を及ぼすダウンストリームタスク非依存のバックドアに対して脆弱であることを実証的に示す。最先端のバックドア検出アプローチは、バックドアのトリガーの反転にほとんど収束しないため、タスク非依存のバックドアに対して防御できない。そこで本研究では,Transformer モデル上でタスクに依存しないバックドアの検出と除去を行う LMSanitator を提案する。 LMSanitatorは、直接トリガーを反転させる代わりに、タスク非依存のバックドアの事前定義された攻撃ベクトル(入力にトリガーが埋め込まれた場合の予測されたモデルの出力)を反転させることを目標としている。 LMSanitatorはさらに、事前訓練されたモデルを凍結する迅速なチューニング特性を活用して、推論フェーズ中に正確で高速な出力監視と入力浄化を行う。複数の言語モデルとNLPタスクに関する大規模な実験は、LMSanitatorの有効性を示している。例えば、LMSanitatorは960モデルで92.8%のバックドア検出精度を実現し、ほとんどのシナリオで攻撃成功率を1%未満に下げる。

関連論文リスト

Patronus: Identifying and Mitigating Transferable Backdoors in Pre-trained Language Models [20.691302472834675]
トランスファー可能なバックドアは、プレトレーニング言語モデル(PLM)サプライチェーンに深刻な脅威をもたらす。本稿では,パラメータシフトに対するトリガの入力側不変性を利用した新しいフレームワークPatronusを提案する。 Patronusは、バックドア検出リコールを$geq98.7%で達成し、クリーンな設定で攻撃成功率を下げている。
論文参考訳（メタデータ） (2025-12-07T15:51:56Z)
Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文参考訳（メタデータ） (2025-11-29T06:20:00Z)
Towards Effective, Stealthy, and Persistent Backdoor Attacks Targeting Graph Foundation Models [62.87838888016534]
Graph Foundation Models(GFM)は、さまざまなソースドメインで事前トレーニングされ、目に見えないターゲットに適応する。 GFMに対するバックドア攻撃は、3つの主要な課題のために簡単ではない。グラフ基礎モデルに対する新たなバックドア攻撃モデルであるGFM-BAを提案する。
論文参考訳（メタデータ） (2025-11-22T08:52:09Z)
Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文参考訳（メタデータ） (2025-08-28T17:05:18Z)
Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文参考訳（メタデータ） (2025-03-21T06:12:06Z)
Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models [42.81731204702258]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。 CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
論文参考訳（メタデータ） (2025-02-26T16:25:15Z)
Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images [0.0]
バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。トレーニングと推論の両方において、未確認のバックドア画像を検出するための画期的な手法を提案する。われわれのアプローチは、学習可能なテキストプロンプトを訓練し、クリーンな画像と隠れたバックドアトリガーを区別する。
論文参考訳（メタデータ） (2024-12-11T19:54:14Z)
Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文参考訳（メタデータ） (2024-11-27T12:15:22Z)
Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense [27.471096446155933]
現行のバックドア浄化法における精製後ロバスト性について検討した。現在の安全浄化法は, バックドア行動の迅速な再学習に弱いことが判明した。モデル更新を伴うバックドア接続経路の偏差を緩和するチューニングディフェンス,Path-Aware Minimization (PAM)を提案する。
論文参考訳（メタデータ） (2024-10-13T13:37:36Z)
CLIBE: Detecting Dynamic Backdoors in Transformer-based NLP Models [39.782217458240225]
本稿では, Transformer ベースの NLP モデルで動的バックドアを検出する最初のフレームワークである CLIBE を提案する。私たちの知る限り、CLIBEは、入力テストサンプルをトリガーすることなく、テキスト生成モデルのバックドアを検出することができる最初のフレームワークです。
論文参考訳（メタデータ） (2024-09-02T11:59:56Z)
MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文参考訳（メタデータ） (2024-08-20T10:44:29Z)
BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文参考訳（メタデータ） (2024-06-24T19:29:47Z)
Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。 MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文参考訳（メタデータ） (2024-05-01T12:03:39Z)
Task-Agnostic Detector for Insertion-Based Backdoor Attacks [53.77294614671166]
本稿では,バックドア検出の先駆的手法であるTABDet(Task-Agnostic Backdoor Detector)を紹介する。 TABDetは、最終層ロジットと効率的なプーリング技術を組み合わせて、3つの著名なNLPタスクをまたいだ統一ロジット表現を可能にする。 TABDetは多様なタスク特化モデルから共同で学習し、従来のタスク特化手法よりも優れた検出効率を示す。
論文参考訳（メタデータ） (2024-03-25T20:12:02Z)
Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文参考訳（メタデータ） (2023-10-28T08:21:16Z)
Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文参考訳（メタデータ） (2022-11-02T15:39:19Z)
Understanding Impacts of Task Similarity on Backdoor Attack and Detection [17.5277044179396]
我々は,マルチタスク学習における類似度指標を用いて,メインタスクとバックドアタスク間のバックドア距離(類似度)を定義する。すると私たちは、既存のステルスなバックドア攻撃を分析し、そのほとんどはバックドア距離を効果的に減らすことができないことを明らかにしました。次に,TSA攻撃と呼ばれる新しい手法を設計し,所定の距離制約の下でバックドアモデルを自動的に生成する。
論文参考訳（メタデータ） (2022-10-12T18:07:39Z)
Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。 NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文参考訳（メタデータ） (2021-10-30T07:11:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。