論文の概要: Boosting Adversarial Transferability using Dynamic Cues
- arxiv url: http://arxiv.org/abs/2302.12252v2
- Date: Tue, 4 Apr 2023 19:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 15:19:15.025402
- Title: Boosting Adversarial Transferability using Dynamic Cues
- Title(参考訳): 動的キューを用いた対向移動性向上
- Authors: Muzammal Naseer, Ahmad Mahmood, Salman Khan, and Fahad Khan
- Abstract要約: タスク固有のプロンプトを通じて,同じソースモデル内に空間的(イメージ)および時間的(ビデオ)キューを導入する。
我々の攻撃結果は、攻撃者が特別なアーキテクチャを必要としないことを示している。
画像モデルは、変化する環境でブラックボックスモデルを騙すために敵攻撃を最適化する効果的な代理である。
- 参考スコア(独自算出の注目度): 15.194437322391558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transferability of adversarial perturbations between image models has
been extensively studied. In this case, an attack is generated from a known
surrogate \eg, the ImageNet trained model, and transferred to change the
decision of an unknown (black-box) model trained on an image dataset. However,
attacks generated from image models do not capture the dynamic nature of a
moving object or a changing scene due to a lack of temporal cues within image
models. This leads to reduced transferability of adversarial attacks from
representation-enriched \emph{image} models such as Supervised Vision
Transformers (ViTs), Self-supervised ViTs (\eg, DINO), and Vision-language
models (\eg, CLIP) to black-box \emph{video} models. In this work, we induce
dynamic cues within the image models without sacrificing their original
performance on images. To this end, we optimize \emph{temporal prompts} through
frozen image models to capture motion dynamics. Our temporal prompts are the
result of a learnable transformation that allows optimizing for temporal
gradients during an adversarial attack to fool the motion dynamics.
Specifically, we introduce spatial (image) and temporal (video) cues within the
same source model through task-specific prompts. Attacking such prompts
maximizes the adversarial transferability from image-to-video and
image-to-image models using the attacks designed for image models. Our attack
results indicate that the attacker does not need specialized architectures,
\eg, divided space-time attention, 3D convolutions, or multi-view convolution
networks for different data modalities. Image models are effective surrogates
to optimize an adversarial attack to fool black-box models in a changing
environment over time. Code is available at https://bit.ly/3Xd9gRQ
- Abstract(参考訳): 画像モデル間の逆摂動の伝達性は広く研究されている。
この場合、既知のサロゲート \eg、ImageNetトレーニングモデルから攻撃が発生し、画像データセットでトレーニングされた未知(ブラックボックス)モデルの決定を変更するために転送される。
しかし、画像モデルから生成される攻撃は、画像モデル内の時間的手がかりの欠如による移動物体や変化シーンの動的性質を捉えない。
これにより、Supervised Vision Transformers (ViTs)、Self-supervised ViTs (\eg, DINO)、Vision- language model (\eg, CLIP) といった表現に富んだ \emph{image} モデルから Black-box \emph{video} モデルへの敵攻撃の転送可能性の低下につながる。
本研究では,画像モデルにおいて,画像の本来の性能を犠牲にすることなく,動的手がかりを誘導する。
この目的のために, 凍結画像モデルを用いて, 運動ダイナミクスを捉えるために, \emph{temporal prompts} を最適化する。
我々の時間的プロンプトは、学習可能な変換の結果であり、敵の攻撃中に時間的勾配を最適化して動きのダイナミクスを騙すことができる。
具体的には、タスク固有のプロンプトを通じて、同じソースモデル内に空間的(イメージ)および時間的(ビデオ)キューを導入する。
このようなプロンプトの攻撃は、画像モデル用に設計されたアタックを用いて、画像間および画像間モデルからの対向転送可能性を最大化する。
攻撃結果から,攻撃者は特別なアーキテクチャや,時間分割,3次元畳み込み,データモダリティの多視点畳み込みネットワークなどを必要としないことが明らかとなった。
画像モデルは、時間とともに変化する環境の中でブラックボックスモデルを騙すために敵攻撃を最適化する効果的な代理である。
コードはhttps://bit.ly/3Xd9gRQで入手できる。
関連論文リスト
- Unsegment Anything by Simulating Deformation [67.10966838805132]
「無声化」とは、「無声化の権利」を画像に付与する作業である。
我々は、全てのプロンプトベースセグメンテーションモデルに対して、転送可能な敵攻撃を実現することを目指している。
本手法は, 画像エンコーダの特徴を破壊し, 即時攻撃を実現することに焦点を当てる。
論文 参考訳(メタデータ) (2024-04-03T09:09:42Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Learning When to Use Adaptive Adversarial Image Perturbations against
Autonomous Vehicles [0.0]
物体検出のためのディープニューラルネットワーク(DNN)モデルは、逆画像摂動の影響を受けやすい。
敵の摂動を発生させる攻撃者の能力をモニタする多段階最適化フレームワークを提案する。
本手法では,攻撃者が状態推定に精通した時刻を監視しながら,リアルタイムに画像攻撃を発生させる能力を示す。
論文 参考訳(メタデータ) (2022-12-28T02:36:58Z) - Adversarial Pixel Restoration as a Pretext Task for Transferable
Perturbations [54.1807206010136]
トランスファー可能な敵攻撃は、事前訓練された代理モデルと既知のラベル空間から敵を最適化し、未知のブラックボックスモデルを騙す。
本稿では,効果的なサロゲートモデルをスクラッチからトレーニングするための自己教師型代替手段として,Adversarial Pixel Restorationを提案する。
我々のトレーニングアプローチは、敵の目標を通したオーバーフィッティングを減らすmin-maxの目標に基づいています。
論文 参考訳(メタデータ) (2022-07-18T17:59:58Z) - Frequency Domain Model Augmentation for Adversarial Attack [91.36850162147678]
ブラックボックス攻撃の場合、代用モデルと被害者モデルの間のギャップは通常大きい。
そこで本研究では,通常の訓練モデルと防衛モデルの両方に対して,より伝達可能な対角線モデルを構築するための新しいスペクトルシミュレーション攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-12T08:26:21Z) - Cross-Modal Transferable Adversarial Attacks from Images to Videos [82.0745476838865]
近年の研究では、一方のホワイトボックスモデルで手作りされた敵の例は、他のブラックボックスモデルを攻撃するために使用できることが示されている。
本稿では,イメージ・トゥ・ビデオ(I2V)攻撃と呼ばれる,シンプルだが効果的なクロスモーダル・アタック手法を提案する。
I2Vは、事前訓練された画像モデルの特徴と良質な例とのコサイン類似性を最小化して、対向フレームを生成する。
論文 参考訳(メタデータ) (2021-12-10T08:19:03Z) - Conditional Adversarial Camera Model Anonymization [11.98237992824422]
特定の写真画像(モデル属性)をキャプチャするために使用されたカメラのモデルは、通常、高周波モデル固有のアーティファクトから推測される。
このような変換を学習するための条件付き対位法を提案する。
論文 参考訳(メタデータ) (2020-02-18T18:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。