論文の概要: BadLLM-TG: A Backdoor Defender powered by LLM Trigger Generator
- arxiv url: http://arxiv.org/abs/2603.15692v1
- Date: Mon, 16 Mar 2026 03:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.891984
- Title: BadLLM-TG: A Backdoor Defender powered by LLM Trigger Generator
- Title(参考訳): BadLLM-TG:LDMトリガー発電機を搭載したバックドアディフェンダー
- Authors: Ruyi Zhang, Heng Gao, Songlei Jian, Yusong Tan, Haifang Zhou,
- Abstract要約: アウトプットを操作するトリガーを使用することで、バックドア攻撃によってモデルの信頼性が損なわれる。
我々は,BadLLM-TGと呼ばれるLDMトリガージェネレータを用いたバックドアディフェンダーを提案する。
これは、被害者モデルのフィードバック損失を報奨信号として利用して、即時強化学習によって最適化される。
実験の結果,攻撃成功率を平均76.2%削減し,第2益ディフェンダーの13.7倍に向上した。
- 参考スコア(独自算出の注目度): 11.537265205867365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks compromise model reliability by using triggers to manipulate outputs. Trigger inversion can accurately locate these triggers via a generator and is therefore critical for backdoor defense. However, the discrete nature of text prevents existing noise-based trigger generator from being applied to nature language processing (NLP). To overcome the limitations, we employ the rich knowledge embedded in large language models (LLMs) and propose a Backdoor defender powered by LLM Trigger Generator, termed BadLLM-TG. It is optimized through prompt-driven reinforcement learning, using the victim model's feedback loss as the reward signal. The generated triggers are then employed to mitigate the backdoor via adversarial training. Experiments show that our method reduces the attack success rate by 76.2\% on average, outperforming the second-best defender by 13.7.
- Abstract(参考訳): アウトプットを操作するトリガーを使用することで、バックドア攻撃によってモデルの信頼性が損なわれる。
トリガー・インバージョンは、ジェネレータを介してこれらのトリガーを正確に特定できるため、バックドア防御には重要である。
しかし、テキストの離散的な性質は、既存のノイズベースのトリガ発生器が自然言語処理(NLP)に適用されるのを防ぐ。
そこで我々は,LLM Trigger Generator(BadLLM-TG)を用いたバックドアディフェンダを提案する。
これは、被害者モデルのフィードバック損失を報奨信号として利用して、即時強化学習によって最適化される。
生成されたトリガーは、敵の訓練を通じてバックドアを緩和するために使用される。
実験の結果,攻撃成功率を平均76.2 %削減し,第2 ベストディフェンダーの13.7 倍に向上した。
関連論文リスト
- Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。
標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。
本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:05:18Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - AdvBDGen: Adversarially Fortified Prompt-Specific Fuzzy Backdoor Generator Against LLM Alignment [23.460024089845408]
本稿では,プロンプト固有のバックドアを自動的に生成する,逆向きに強化された生成ファインチューニングフレームワークであるAdvBDGenを提案する。
AdvBDGenは、バックドアのインストール性とステルス性を確保するために、敵によって強化されたジェネレータと差別器のペアを使用している。
論文 参考訳(メタデータ) (2024-10-15T05:05:56Z) - Adversarial Feature Map Pruning for Backdoor [4.550555443103878]
本稿では,バックドア攻撃を軽減するために,FMP (Adversarial Feature Map Pruning for Backdoor)を提案する。
FMPは、入力からバックドア情報を抽出するように訓練されたバックドア特徴マップのプルークを試みる。
我々の実験は、既存の防衛戦略と比較して、FMPは最も複雑で目に見えない攻撃トリガーに対しても、攻撃成功率(ASR)を効果的に低減できることを示した。
論文 参考訳(メタデータ) (2023-07-21T13:17:22Z) - From Shortcuts to Triggers: Backdoor Defense with Denoised PoE [51.287157951953226]
言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。
既存のバックドア防御手法は主に明示的なトリガーによるバックドア攻撃に焦点を当てている。
我々は,様々なバックドア攻撃を防御するために,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:25Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。