Fugu-MT 論文翻訳(概要): Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

論文の概要: Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

arxiv url: http://arxiv.org/abs/2603.09772v1
Date: Tue, 10 Mar 2026 15:11:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:24.41388
Title: Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors
Title（参考訳）: バックドアではなく、トリガーを取り外す:代替トリガーとラテントバックドア
Authors: Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek,
Abstract要約: 現在のバックドア防御は、既知のトリガーを中和するとバックドアが取り除かれると仮定している。我々は、このトリガー中心の視点が不完全であることを示す: インセンティブトリガー、トレーニングトリガーと知覚的に異なるパターン、同じバックドアを確実にアクティベートする。
参考スコア（独自算出の注目度）: 20.784230322205232
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current backdoor defenses assume that neutralizing a known trigger removes the backdoor. We show this trigger-centric view is incomplete: \emph{alternative triggers}, patterns perceptually distinct from training triggers, reliably activate the same backdoor. We estimate the alternative trigger backdoor direction in feature space by contrasting clean and triggered representations, and then develop a feature-guided attack that jointly optimizes target prediction and directional alignment. First, we theoretically prove that alternative triggers exist and are an inevitable consequence of backdoor training. Then, we verify this empirically. Additionally, defenses that remove training triggers often leave backdoors intact, and alternative triggers can exploit the latent backdoor feature-space. Our findings motivate defenses targeting backdoor directions in representation space rather than input-space triggers.
Abstract（参考訳）: 現在のバックドア防御は、既知のトリガーを中和するとバックドアが取り除かれると仮定している。このトリガー中心のビューは不完全である: \emph{alternative triggers}, トレーニングトリガーと知覚的に異なるパターン、同じバックドアを確実に活性化する。我々は、クリーンでトリガされた表現を対比して特徴空間内の代替トリガーバックドア方向を推定し、目標予測と方向アライメントを協調的に最適化する特徴誘導攻撃を開発する。まず、代替トリガーが存在することを理論的に証明し、バックドアトレーニングの必然的な結果である。そしてこれを実証的に検証する。さらに、トレーニングトリガーを削除するディフェンスはバックドアをそのままにしておくことが多く、代替トリガーは潜在するバックドア機能空間を利用することができる。本研究の結果は,入力空間トリガではなく,表現空間内の後方方向を目標とした防御効果が示唆された。

関連論文リスト

Uncovering and Aligning Anomalous Attention Heads to Defend Against NLP Backdoor Attacks [9.078969469946038]
バックドア攻撃は、大規模な言語モデルのセキュリティに深刻な脅威をもたらす。本稿では,注目の類似性に基づくバックドア検出手法を提案する。我々の手法はバックドア攻撃の成功率を大幅に低下させる。
論文参考訳（メタデータ） (2025-11-16T15:26:50Z)
A4O: All Trigger for One sample [10.78460062665304]
提案されたバックドアディフェンダーは、トリガーが統一された方法で現れるという仮定に依存することが多い。本稿では,この単純な仮定が抜け穴を生じさせ,より洗練されたバックドア攻撃を回避できることを示す。我々は,複数の種類のバックドアトリガーを組み込んだ新たなバックドア攻撃機構を設計し,ステルスネスと有効性に着目した。
論文参考訳（メタデータ） (2025-01-13T10:38:58Z)
Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。 PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文参考訳（メタデータ） (2024-05-25T07:52:26Z)
BELT: Old-School Backdoor Attacks can Evade the State-of-the-Art Defense with Backdoor Exclusivity Lifting [21.91491621538245]
本稿では,バックドア攻撃の新たな特徴,すなわちバックドア排他性について検討する。バックドアの排他性は、入力変動の存在下で有効なバックドアトリガーの能力を測定する。提案手法は, 従来の4つのバックドア攻撃のステルス性を大幅に向上させ, 攻撃成功率と通常の実用性にはほとんど費用がかからない。
論文参考訳（メタデータ） (2023-12-08T08:35:16Z)
From Shortcuts to Triggers: Backdoor Defense with Denoised PoE [51.287157951953226]
言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。既存のバックドア防御手法は主に明示的なトリガーによるバックドア攻撃に焦点を当てている。我々は,様々なバックドア攻撃を防御するために,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。
論文参考訳（メタデータ） (2023-05-24T08:59:25Z)
BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文参考訳（メタデータ） (2022-11-02T16:03:43Z)
Backdoor Attack in the Physical World [49.64799477792172]
ディープニューラルネットワーク(DNN)に隠れたバックドアを注入するバックドア攻撃既存のバックドア攻撃のほとんどは、トレーニングおよびテスト画像にまたがる静的トリガ、すなわち$$トリガの設定を採用した。テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、この攻撃パラダイムは脆弱であることを示す。
論文参考訳（メタデータ） (2021-04-06T08:37:33Z)
Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文参考訳（メタデータ） (2020-04-09T17:19:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。