論文の概要: SVASTIN: Sparse Video Adversarial Attack via Spatio-Temporal Invertible Neural Networks
- arxiv url: http://arxiv.org/abs/2406.01894v1
- Date: Tue, 4 Jun 2024 01:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:13:20.382818
- Title: SVASTIN: Sparse Video Adversarial Attack via Spatio-Temporal Invertible Neural Networks
- Title(参考訳): SVASTIN:時空間非可逆ニューラルネットワークによる疎ビデオ対向攻撃
- Authors: Yi Pan, Jun-Jie Huang, Zihan Chen, Wentao Zhao, Ziyue Wang,
- Abstract要約: 既存の敵攻撃法は、主に勾配に基づくアプローチを採り、目立った摂動を伴う敵映像を生成する。
本稿では,S-Brittany Invertible Neural Networks (VASTIN) を介し,非知覚的特徴空間情報交換による対角的映像生成のための新しいスパース・アタックを提案する。
UCF-101 と Kinetics-400 に関する実験により,提案したSVASTIN は,非知覚性の高い対人的例を,より高い騙し率を持つ最先端の手法よりも生成できることが実証された。
- 参考スコア(独自算出の注目度): 14.87613382899623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust and imperceptible adversarial video attack is challenging due to the spatial and temporal characteristics of videos. The existing video adversarial attack methods mainly take a gradient-based approach and generate adversarial videos with noticeable perturbations. In this paper, we propose a novel Sparse Adversarial Video Attack via Spatio-Temporal Invertible Neural Networks (SVASTIN) to generate adversarial videos through spatio-temporal feature space information exchanging. It consists of a Guided Target Video Learning (GTVL) module to balance the perturbation budget and optimization speed and a Spatio-Temporal Invertible Neural Network (STIN) module to perform spatio-temporal feature space information exchanging between a source video and the target feature tensor learned by GTVL module. Extensive experiments on UCF-101 and Kinetics-400 demonstrate that our proposed SVASTIN can generate adversarial examples with higher imperceptibility than the state-of-the-art methods with the higher fooling rate. Code is available at \href{https://github.com/Brittany-Chen/SVASTIN}{https://github.com/Brittany-Chen/SVASTIN}.
- Abstract(参考訳): ビデオの空間的特徴と時間的特徴から,ロバストで知覚不能な対向的ビデオ攻撃は困難である。
既存の映像対向攻撃法は、主に勾配に基づくアプローチを採り、目立った摂動を伴う対向映像を生成する。
本稿では,時空間情報交換による対角的ビデオを生成するために,SVASTIN(spatio-Temporal Invertible Neural Networks)によるスパース対角的ビデオアタックを提案する。
摂動予算と最適化速度のバランスをとるためのガイドターゲット・ビデオ・ラーニング(GTVL)モジュールと、ソースビデオとGTVLモジュールが学習したターゲット特徴テンソルの間で時空間情報を交換する時空間時空間情報を行う時空間可逆ニューラルネットワーク(STIN)モジュールで構成される。
UCF-101 と Kinetics-400 の広範囲な実験により,提案したSVASTIN は,非受容性の高い対逆例を,より高い騙し率で生成できることが実証された。
コードは \href{https://github.com/Brittany-Chen/SVASTIN}{https://github.com/Brittany-Chen/SVASTIN} で公開されている。
関連論文リスト
- Video to Video Generative Adversarial Network for Few-shot Learning Based on Policy Gradient [12.07088416665005]
条件付き条件-映像合成のための新しいディープニューラルネットワークアプローチであるRL-V2V-GANを提案する。
本手法は,ソースビデオドメインのスタイルを保存しながら,ソースビデオドメインからターゲットビデオドメインへの勾配マッピングを学習することを目的としている。
実験の結果,RL-V2V-GANは時間的コヒーレントなビデオ結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-10-28T01:35:10Z) - ReToMe-VA: Recursive Token Merging for Video Diffusion-based Unrestricted Adversarial Attack [71.2286719703198]
ビデオ拡散に基づく非制限アドリアック攻撃(ReToMe-VA)における再帰的トークンマージを提案する。
ReToMe-VAは、空間的非受容性を達成するために、Timestep-wise Adrial Latent Optimization (TALO)戦略を採用する。
ReToMe-VAには、ビデオフレーム間でトークンのマッチングとマージを行うRecursive Token Merging(ReToMe)メカニズムが導入されている。
論文 参考訳(メタデータ) (2024-08-10T08:10:30Z) - ASF-Net: Robust Video Deraining via Temporal Alignment and Online
Adaptive Learning [47.10392889695035]
本稿では,時間シフトモジュールを組み込んだ新しい計算パラダイムであるアライメント・シフト・フュージョン・ネットワーク(ASF-Net)を提案する。
LArgeスケールのRAINYビデオデータセット(LARA)を構築し,このコミュニティの開発を支援する。
提案手法は,3つのベンチマークにおいて優れた性能を示し,実世界のシナリオにおいて魅力的な視覚的品質を示す。
論文 参考訳(メタデータ) (2023-09-02T14:50:13Z) - Video Event Restoration Based on Keyframes for Video Anomaly Detection [9.18057851239942]
既存のディープニューラルネットワークベースの異常検出(VAD)手法は、主にフレーム再構成やフレーム予測の経路に従う。
これらの制限を突破するために、新しいVADパラダイムを導入します。
本稿では,ビデオイベント復元のためのU字型スイニングトランスフォーマーネットワーク (USTN-DSC) を提案する。
論文 参考訳(メタデータ) (2023-04-11T10:13:19Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Attacking Video Recognition Models with Bullet-Screen Comments [79.53159486470858]
本稿では,BSC攻撃による映像認識モデルに対する新たな敵攻撃を提案する。
BSCは一種の意味のあるパッチと見なすことができ、クリーンなビデオに追加しても、ビデオの内容に対する人々の理解に影響を与えたり、人々の疑念を喚起したりしない。
論文 参考訳(メタデータ) (2021-10-29T08:55:50Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Over-the-Air Adversarial Flickering Attacks against Video Recognition
Networks [54.82488484053263]
ビデオ分類のためのディープニューラルネットワークは、敵の操作を受けることができる。
本稿では,フリックング時間摂動を導入することで,ビデオ分類器を騙す操作手法を提案する。
攻撃はいくつかの標的モデルに実装され、攻撃の伝達性が実証された。
論文 参考訳(メタデータ) (2020-02-12T17:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。