論文の概要: TIJO: Trigger Inversion with Joint Optimization for Defending Multimodal
Backdoored Models
- arxiv url: http://arxiv.org/abs/2308.03906v1
- Date: Mon, 7 Aug 2023 20:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 14:54:44.216075
- Title: TIJO: Trigger Inversion with Joint Optimization for Defending Multimodal
Backdoored Models
- Title(参考訳): TIJO:マルチモーダルバックドアモデルに対する共同最適化によるトリガーインバージョン
- Authors: Indranil Sur, Karan Sikka, Matthew Walmer, Kaushik Koneripalli,
Anirban Roy, Xiao Lin, Ajay Divakaran, Susmit Jha
- Abstract要約: マルチモーダル・バックドア・ディフェンス技術TIJO (Trigger Inversion using Joint Optimization) を提案する。
最近のarXiv:2112.07668では、視覚質問応答タスクのためのマルチモーダルモデルに対するバックドア攻撃が成功している。
本稿では、画像とテキストの両モードのトリガをリバースエンジニアリングする共同最適化により、デュアルキー攻撃に対する防御を行うTIJOを提案する。
- 参考スコア(独自算出の注目度): 18.485290653242853
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a Multimodal Backdoor Defense technique TIJO (Trigger Inversion
using Joint Optimization). Recent work arXiv:2112.07668 has demonstrated
successful backdoor attacks on multimodal models for the Visual Question
Answering task. Their dual-key backdoor trigger is split across two modalities
(image and text), such that the backdoor is activated if and only if the
trigger is present in both modalities. We propose TIJO that defends against
dual-key attacks through a joint optimization that reverse-engineers the
trigger in both the image and text modalities. This joint optimization is
challenging in multimodal models due to the disconnected nature of the visual
pipeline which consists of an offline feature extractor, whose output is then
fused with the text using a fusion module. The key insight enabling the joint
optimization in TIJO is that the trigger inversion needs to be carried out in
the object detection box feature space as opposed to the pixel space. We
demonstrate the effectiveness of our method on the TrojVQA benchmark, where
TIJO improves upon the state-of-the-art unimodal methods from an AUC of 0.6 to
0.92 on multimodal dual-key backdoors. Furthermore, our method also improves
upon the unimodal baselines on unimodal backdoors. We present ablation studies
and qualitative results to provide insights into our algorithm such as the
critical importance of overlaying the inverted feature triggers on all visual
features during trigger inversion. The prototype implementation of TIJO is
available at https://github.com/SRI-CSL/TIJO.
- Abstract(参考訳): マルチモーダル・バックドア・ディフェンス技術TIJO(Trigger Inversion using Joint Optimization)を提案する。
最近のarXiv:2112.07668では、視覚質問応答タスクのためのマルチモーダルモデルに対するバックドア攻撃が成功した。
デュアルキーバックドアトリガーは2つのモダリティ(画像とテキスト)に分割され、バックドアが起動されるのは、トリガーが両方のモダリティに存在する場合にのみである。
画像とテキストの両方でトリガーをリバースエンジニアリングする統合最適化により,デュアルキー攻撃から防御するtijoを提案する。
この共同最適化は、オフラインの特徴抽出器からなる視覚パイプラインの非連結性のため、マルチモーダルモデルでは困難であり、その出力は融合モジュールを用いてテキストと融合される。
TIJOにおける共同最適化を可能にする重要な洞察は、トリガーインバージョンは、画素空間とは対照的にオブジェクト検出ボックスの特徴空間で実行する必要があることである。
提案手法の有効性をTrojVQAベンチマークで示し,マルチモーダルなデュアルキーバックドア上でのAUCの0.6から0.92から最先端のユニモーダル法を改善する。
さらに, 本手法は, バックドアの単方向ベースラインを改良する。
そこで,我々はアブレーション研究と定性的な結果を用いて,トリガー反転時の視覚特徴に逆特徴トリガーを重ね合わせることの重要性について考察する。
TIJOのプロトタイプ実装はhttps://github.com/SRI-CSL/TIJOで公開されている。
関連論文リスト
- BadCM: Invisible Backdoor Attack Against Cross-Modal Learning [110.37205323355695]
クロスモーダルバックドアにおけるパズルの欠片を補うために,新たな両面バックドアを導入する。
BadCMは、1つの統合されたフレームワーク内で多様なクロスモーダルアタックのために意図的に設計された最初の目に見えないバックドアメソッドである。
論文 参考訳(メタデータ) (2024-10-03T03:51:53Z) - TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors [36.07978634674072]
拡散モデルは、その完全性を損なうバックドア攻撃に弱い。
本稿では,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。
TERDは、さまざまな解像度のデータセットにまたがる100%のTrue Positive Rate(TPR)とTrue Negative Rate(TNR)を保証します。
論文 参考訳(メタデータ) (2024-09-09T03:02:16Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - GraFT: Gradual Fusion Transformer for Multimodal Re-Identification [0.8999666725996975]
マルチモーダル ReID のための textbf Gradual Fusion Transformer (GraFT) を導入する。
GraFTは学習可能な融合トークンを使用し、エンコーダ間で自己注意を誘導し、モダリティ固有の特徴とオブジェクト固有の特徴の両方を順応的にキャプチャする。
これらの拡張を広範囲にわたるアブレーション研究を通じて実証し、GraFTが確立されたマルチモーダルReIDベンチマークを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-25T00:15:40Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Rethinking Vision Transformer and Masked Autoencoder in Multimodal Face
Anti-Spoofing [19.142582966452935]
RGB、赤外線(IR)、深度によるマルチモーダルFASのためのViTにおける3つの重要な要素(入力、事前学習、微調整)について検討した。
マルチモーダルFAS自己教師型事前学習のためのモダリティ非対称マスク付きオートエンコーダ (M$2$A$2$E) を提案する。
論文 参考訳(メタデータ) (2023-02-11T17:02:34Z) - Dual-Key Multimodal Backdoors for Visual Question Answering [26.988750557552983]
マルチモーダルネットワークは、Dual-Key Multimodal Backdoorsと呼ばれる新しいタイプの攻撃に対して脆弱であることを示す。
この攻撃は、最先端のネットワークが使用する複雑な融合機構を利用して、効果的でステルス的なバックドアを埋め込む。
本稿では,視覚的質問応答(VQA)タスクにおけるマルチモーダルバックドアについて,複数のアーキテクチャと視覚的特徴バックボーンを用いた広範な検討を行う。
論文 参考訳(メタデータ) (2021-12-14T18:59:52Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。