論文の概要: Breaking Temporal Consistency: Generating Video Universal Adversarial
Perturbations Using Image Models
- arxiv url: http://arxiv.org/abs/2311.10366v1
- Date: Fri, 17 Nov 2023 07:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 17:30:48.337187
- Title: Breaking Temporal Consistency: Generating Video Universal Adversarial
Perturbations Using Image Models
- Title(参考訳): 時間的一貫性を破る:画像モデルを用いたビデオユニバーサル逆転摂動の生成
- Authors: Hee-Seon Kim, Minji Son, Minbeom Kim, Myung-Joon Kwon, Changick Kim
- Abstract要約: 本稿では,画像モデルを用いたビデオアタックに時間情報を組み込む最初の試みであるBTC手法を提案する。
我々のアプローチは単純だが、目に見えないビデオモデルを攻撃するのに効果的である。
提案手法は, 各種データセットにおける有効性の観点から, 既存の手法を超越した手法である。
- 参考スコア(独自算出の注目度): 16.36416048893487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As video analysis using deep learning models becomes more widespread, the
vulnerability of such models to adversarial attacks is becoming a pressing
concern. In particular, Universal Adversarial Perturbation (UAP) poses a
significant threat, as a single perturbation can mislead deep learning models
on entire datasets. We propose a novel video UAP using image data and image
model. This enables us to take advantage of the rich image data and image
model-based studies available for video applications. However, there is a
challenge that image models are limited in their ability to analyze the
temporal aspects of videos, which is crucial for a successful video attack. To
address this challenge, we introduce the Breaking Temporal Consistency (BTC)
method, which is the first attempt to incorporate temporal information into
video attacks using image models. We aim to generate adversarial videos that
have opposite patterns to the original. Specifically, BTC-UAP minimizes the
feature similarity between neighboring frames in videos. Our approach is simple
but effective at attacking unseen video models. Additionally, it is applicable
to videos of varying lengths and invariant to temporal shifts. Our approach
surpasses existing methods in terms of effectiveness on various datasets,
including ImageNet, UCF-101, and Kinetics-400.
- Abstract(参考訳): ディープラーニングモデルを用いたビデオ分析が普及するにつれ、このようなモデルの敵対的攻撃に対する脆弱性が懸念されている。
特に、Universal Adversarial Perturbation (UAP)は、単一の摂動がデータセット全体のディープラーニングモデルを誤解させる可能性があるため、重大な脅威となる。
画像データと画像モデルを用いた新しいビデオUAPを提案する。
これにより、ビデオアプリケーションで利用可能なリッチな画像データと画像モデルに基づく研究を活用できる。
しかし、ビデオの時間的側面を分析する能力は画像モデルに限られており、これはビデオ攻撃の成功に不可欠である。
この課題に対処するために,画像モデルを用いた映像攻撃に時間的情報を組み込む最初の試みであるbtc(breaking temporal consistency)法を提案する。
私たちは、オリジナルと逆のパターンを持つ敵の動画を制作することを目指している。
具体的には、BTC-UAPはビデオ内の隣り合うフレーム間の特徴的類似性を最小化する。
我々のアプローチは単純だが、見えないビデオモデルを攻撃するのに効果的である。
さらに、長さが変化し、時間シフトに不変なビデオにも適用できる。
提案手法は,imagenet,utf-101,kinetics-400など,各種データセットの有効性の観点から既存の手法を上回っている。
関連論文リスト
- Fine-gained Zero-shot Video Sampling [21.42513407755273]
我々は,$mathcalZS2$と表記されるZero-Shotビデオサンプリングアルゴリズムを提案する。
$mathcalZS2$は、トレーニングや最適化なしに高品質のビデオクリップを直接サンプリングすることができる。
ゼロショットビデオ生成における最先端のパフォーマンスを達成し、時々最新の教師付き手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-31T09:36:58Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models [40.73982918337828]
本稿では,bf BIVDiffと呼ばれるトレーニング不要な汎用ビデオ合成フレームワークを提案する。
具体的には、まず、フレームワイドビデオ生成に特定の画像拡散モデル(例えば、ControlNetとInstruct Pix2Pix)を使用し、その後、生成されたビデオ上でMixed Inversionを行い、最後に、反転潜時をビデオ拡散モデルに入力する。
論文 参考訳(メタデータ) (2023-12-05T14:56:55Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - ART$\boldsymbol{\cdot}$V: Auto-Regressive Text-to-Video Generation with
Diffusion Models [99.84195819571411]
ART$boldsymbolcdot$Vは拡散モデルを用いた自動回帰ビデオ生成のための効率的なフレームワークである。
隣接するフレーム間の単純な連続的な動きしか学ばない。
様々なプロンプトで調整された、任意に長いビデオを生成することができる。
論文 参考訳(メタデータ) (2023-11-30T18:59:47Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Boosting the Transferability of Video Adversarial Examples via Temporal
Translation [82.0745476838865]
敵の例は転送可能であり、現実世界のアプリケーションにおけるブラックボックス攻撃に対して実現可能である。
本稿では,一組の時間的翻訳ビデオクリップ上での対向的摂動を最適化する時間的翻訳攻撃手法を提案する。
Kinetics-400 データセットと UCF-101 データセットを用いた実験により,本手法がビデオ対向例の転送可能性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2021-10-18T07:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。