論文の概要: Proactive Disentangled Modeling of Trigger-Object Pairings for Backdoor Defense
- arxiv url: http://arxiv.org/abs/2508.01932v1
- Date: Sun, 03 Aug 2025 21:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.122815
- Title: Proactive Disentangled Modeling of Trigger-Object Pairings for Backdoor Defense
- Title(参考訳): バックドアディフェンス用トリガー・オブジェクト・ペアリングの能動的遠絡モデル
- Authors: Kyle Stein, Andrew A. Mahyari, Guillermo Francia III, Eman El-Sheikh,
- Abstract要約: ディープニューラルネットワーク(DNN)とジェネレーティブAI(GenAI)は、バックドア攻撃に対してますます脆弱になっている。
本稿では、構造的ゆがみを利用したプロアクティブなフレームワークであるDBOMを紹介し、見えないバックドアの脅威を識別し、中和する。
そこで本研究では,DBOMが下流トレーニングに先立って有毒な画像を確実に検出し,トレーニングパイプラインの安全性を著しく向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) and generative AI (GenAI) are increasingly vulnerable to backdoor attacks, where adversaries embed triggers into inputs to cause models to misclassify or misinterpret target labels. Beyond traditional single-trigger scenarios, attackers may inject multiple triggers across various object classes, forming unseen backdoor-object configurations that evade standard detection pipelines. In this paper, we introduce DBOM (Disentangled Backdoor-Object Modeling), a proactive framework that leverages structured disentanglement to identify and neutralize both seen and unseen backdoor threats at the dataset level. Specifically, DBOM factorizes input image representations by modeling triggers and objects as independent primitives in the embedding space through the use of Vision-Language Models (VLMs). By leveraging the frozen, pre-trained encoders of VLMs, our approach decomposes the latent representations into distinct components through a learnable visual prompt repository and prompt prefix tuning, ensuring that the relationships between triggers and objects are explicitly captured. To separate trigger and object representations in the visual prompt repository, we introduce the trigger-object separation and diversity losses that aids in disentangling trigger and object visual features. Next, by aligning image features with feature decomposition and fusion, as well as learned contextual prompt tokens in a shared multimodal space, DBOM enables zero-shot generalization to novel trigger-object pairings that were unseen during training, thereby offering deeper insights into adversarial attack patterns. Experimental results on CIFAR-10 and GTSRB demonstrate that DBOM robustly detects poisoned images prior to downstream training, significantly enhancing the security of DNN training pipelines.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)とジェネレーティブAI(GenAI)は、敵が入力にトリガーを埋め込んで、モデルがターゲットラベルを誤分類または誤解釈させるようなバックドア攻撃に対して、ますます脆弱になっている。
従来のシングルトリガーシナリオ以外にも、攻撃者はさまざまなオブジェクトクラスに複数のトリガーを注入し、標準的な検出パイプラインを回避する、見えないバックドアオブジェクトの設定を形成することができる。
本稿では,DBOM(Disentangled Backdoor-Object Modeling)について紹介する。
具体的には、DBOMは、Vision-Language Models (VLM) を用いて、埋め込み空間における独立したプリミティブとしてトリガとオブジェクトをモデリングすることで、入力画像表現を分解する。
VLMの凍結・事前学習エンコーダを利用することで、学習可能なビジュアルプロンプトレポジトリを通じて潜在表現を個別のコンポーネントに分解し、プレフィックスチューニングを行い、トリガとオブジェクトの関係を明示的に把握する。
視覚的プロンプトレポジトリにおけるトリガとオブジェクトの表現を分離するために、引き金とオブジェクトの分離と多様性の損失を導入し、引き金とオブジェクトの視覚的特徴を分離する。
次に、画像特徴と特徴分解と融合の整合性、および共有マルチモーダル空間における学習された文脈的プロンプトを整合させることにより、DBOMは、トレーニング中に目に見えない新規トリガオブジェクトペアリングへのゼロショット一般化を可能にし、敵の攻撃パターンに対する深い洞察を提供する。
CIFAR-10 と GTSRB の実験結果から,DBOM は下流訓練に先立って有害画像を確実に検出し,DNN 訓練パイプラインの安全性を著しく向上することが示された。
関連論文リスト
- SRD: Reinforcement-Learned Semantic Perturbation for Backdoor Defense in VLMs [57.880467106470775]
攻撃者は、トレーニングデータに知覚不能な摂動を注入することができ、モデルが悪意のある攻撃的制御されたキャプションを生成する。
本稿では,引き金の事前知識を伴わずにバックドア動作を緩和する強化学習フレームワークであるセマンティック・リワード・ディフェンス(SRD)を提案する。
SRDはDeep Q-Networkを使用して、機密画像領域に個別の摂動を適用するためのポリシーを学習し、悪意ある経路の活性化を妨害することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T08:22:24Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Pulling Back the Curtain: Unsupervised Adversarial Detection via Contrastive Auxiliary Networks [0.0]
本稿では,補助的特徴表現内での敵対行動を明らかにするために,補助的コントラストネットワーク(U-CAN)による教師なし敵検出を提案する。
本手法は、既存の非教師付き対向検出手法を超越し、4つの異なる攻撃方法に対して優れたF1スコアを達成している。
論文 参考訳(メタデータ) (2025-02-13T09:40:26Z) - Twin Trigger Generative Networks for Backdoor Attacks against Object Detection [14.578800906364414]
オブジェクト検出器は、現実世界のアプリケーションで広く使われているが、バックドア攻撃に弱い。
バックドア攻撃に関するほとんどの研究は画像分類に焦点を合わせており、物体検出について限定的な研究がなされている。
本研究では,トレーニング中のモデルにバックドアを埋め込むための目に見えないトリガと,推論中の安定したアクティベーションのための目に見えるトリガを生成する新しいツイントリガ生成ネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-23T03:46:45Z) - CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、隠れたトリガーを介して出力を操作するバックドア攻撃に対して脆弱である。
本稿では,バックドアモデルがトリガ時に不安定な層単位の隠蔽表現を示すという観測を生かした内部一貫性規則化(CROW)を提案する。
CROWは、微調整やバックドアの中立化など、クリーンな参照モデルや知識のトリガを必要とせず、小さなクリーンなデータセットのみを使用して、レイヤ間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z) - Self-Supervised Representation Learning for Adversarial Attack Detection [6.528181610035978]
教師付き学習に基づく敵攻撃検出手法は,多数のラベル付きデータに依存している。
この欠点に対処するために、敵攻撃検出タスクのための自己教師付き表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T09:37:16Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Pre-trained Trojan Attacks for Visual Recognition [106.13792185398863]
PVM(Pre-trained Vision Model)は、下流タスクを微調整する際、例外的なパフォーマンスのため、主要なコンポーネントとなっている。
本稿では,PVMにバックドアを埋め込んだトロイの木馬攻撃を提案する。
バックドア攻撃の成功において、クロスタスクアクティベーションとショートカット接続がもたらす課題を強調します。
論文 参考訳(メタデータ) (2023-12-23T05:51:40Z) - Versatile Backdoor Attack with Visible, Semantic, Sample-Specific, and Compatible Triggers [38.67988745745853]
我々はtextbfVisible, textbfSemantic, textbfSample-lang, textbfCompatible (VSSC) と呼ばれる新しいトリガを提案する。
VSSCトリガは、効果的でステルス的で堅牢な同時実行を実現しており、対応するオブジェクトを使用して物理的シナリオに効果的にデプロイすることもできる。
論文 参考訳(メタデータ) (2023-06-01T15:42:06Z) - Exploiting Multi-Object Relationships for Detecting Adversarial Attacks
in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。
近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。
言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文 参考訳(メタデータ) (2021-08-19T00:52:10Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。