論文の概要: Backdoor Vectors: a Task Arithmetic View on Backdoor Attacks and Defenses
- arxiv url: http://arxiv.org/abs/2510.08016v1
- Date: Thu, 09 Oct 2025 09:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.996664
- Title: Backdoor Vectors: a Task Arithmetic View on Backdoor Attacks and Defenses
- Title(参考訳): バックドアベクトル: バックドア攻撃と防御に関するタスク算術的視点
- Authors: Stanisław Pawlak, Jan Dubiński, Daniel Marczak, Bartłomiej Twardowski,
- Abstract要約: 本稿では,攻撃自体をタスクベクトルとして扱うことで,バックドア攻撃を理解するためのシンプルなフレームワークを提案する。
本稿では,Sparse Backdoor Vector(SBV)$という,複数の攻撃を1つの攻撃に組み合わせることで,バックドアのレジリエンスを向上させる手法を提案する。
以上の結果から,SBVは先行攻撃を超越し,バックドア効果を向上させるためにマージを利用する最初の方法であることが示唆された。
- 参考スコア(独自算出の注目度): 2.82789527790216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging (MM) recently emerged as an effective method for combining large deep learning models. However, it poses significant security risks. Recent research shows that it is highly susceptible to backdoor attacks, which introduce a hidden trigger into a single fine-tuned model instance that allows the adversary to control the output of the final merged model at inference time. In this work, we propose a simple framework for understanding backdoor attacks by treating the attack itself as a task vector. $Backdoor\ Vector\ (BV)$ is calculated as the difference between the weights of a fine-tuned backdoored model and fine-tuned clean model. BVs reveal new insights into attacks understanding and a more effective framework to measure their similarity and transferability. Furthermore, we propose a novel method that enhances backdoor resilience through merging dubbed $Sparse\ Backdoor\ Vector\ (SBV)$ that combines multiple attacks into a single one. We identify the core vulnerability behind backdoor threats in MM: $inherent\ triggers$ that exploit adversarial weaknesses in the base model. To counter this, we propose $Injection\ BV\ Subtraction\ (IBVS)$ - an assumption-free defense against backdoors in MM. Our results show that SBVs surpass prior attacks and is the first method to leverage merging to improve backdoor effectiveness. At the same time, IBVS provides a lightweight, general defense that remains effective even when the backdoor threat is entirely unknown.
- Abstract(参考訳): モデルマージング(MM)は近年,大規模なディープラーニングモデルを組み合わせる効果的な方法として登場した。
しかし、セキュリティ上の重大なリスクが伴う。
近年の研究では、単一の微調整モデルインスタンスに隠れトリガーを導入し、敵が最終的なマージモデルの出力を推論時に制御できるようにするバックドア攻撃に非常に敏感であることが示されている。
本研究では,攻撃自体をタスクベクトルとして扱うことで,バックドア攻撃を理解するためのシンプルなフレームワークを提案する。
$Backdoor\ Vector\ (BV)$は、微調整されたバックドアモデルと微調整されたクリーンモデルの重量の違いとして計算される。
BVは、攻撃の理解に関する新たな洞察と、その類似性と転送可能性を測定するためのより効果的なフレームワークを明らかにする。
さらに,Sparse\ Backdoor\ Vector\ (SBV)$という,複数の攻撃を1つの攻撃に組み合わせることで,バックドアのレジリエンスを高める手法を提案する。
MMのバックドア脅威の背後にある中核的な脆弱性を識別する: $inherent\ triggers$ ベースモデルの敵の弱点を悪用する。
これに対応するために、MMのバックドアに対する仮定のない防御である$Injection\ BV\ Subtraction\ (IBVS)$を提案する。
以上の結果から,SBVは先行攻撃を超越し,バックドア効果を向上させるためにマージを利用する最初の方法であることが示唆された。
同時に、IBVSはバックドアの脅威が完全に未知であっても有効である軽量で汎用的な防御を提供する。
関連論文リスト
- Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。
我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。
複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文 参考訳(メタデータ) (2024-12-09T05:30:25Z) - A Spatiotemporal Stealthy Backdoor Attack against Cooperative Multi-Agent Deep Reinforcement Learning [12.535344011523897]
協調型多エージェント深層強化学習(c-MADRL)は、バックドア攻撃の脅威にさらされている。
我々は,c-MADRLに対する新たなバックドア攻撃を提案し,単一のエージェントにのみバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する。
私たちのバックドア攻撃は高い攻撃成功率(91.6%)を達成でき、クリーンパフォーマンスのばらつきは低い(3.7%)。
論文 参考訳(メタデータ) (2024-09-12T06:17:37Z) - Towards Unified Robustness Against Both Backdoor and Adversarial Attacks [31.846262387360767]
ディープニューラルネットワーク(DNN)は、バックドアと敵の攻撃の両方に対して脆弱であることが知られている。
本稿では,バックドアと敵の攻撃との間には興味深い関係があることを明らかにする。
バックドアと敵の攻撃を同時に防御する新しいプログレッシブ統一防衛アルゴリズムが提案されている。
論文 参考訳(メタデータ) (2024-05-28T07:50:00Z) - TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - Breaking the False Sense of Security in Backdoor Defense through Re-Activation Attack [32.74007523929888]
防衛後のバックドアモデルの特徴を再検討する。
既存の訓練後防衛戦略から派生した防衛モデルには,元のバックドアが現存していることが判明した。
我々は,これらの休眠バックドアを推論中に簡単に再活性化できることを実証的に示す。
論文 参考訳(メタデータ) (2024-05-25T08:57:30Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Rethink Stealthy Backdoor Attacks in Natural Language Processing [35.6803390044542]
盗んだバックドア攻撃の能力は、バックドア攻撃に分類されると過大評価される。
クリーン状態と毒素状態モデルとのASR差を測定するASRD(Attack successful rate difference)と呼ばれる新しい指標を提案する。
本手法は,ステルスなバックドア攻撃に対する最先端の防御方法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-09T12:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。