論文の概要: LocalStyleFool: Regional Video Style Transfer Attack Using Segment Anything Model
- arxiv url: http://arxiv.org/abs/2403.11656v2
- Date: Wed, 27 Mar 2024 09:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:34:33.701476
- Title: LocalStyleFool: Regional Video Style Transfer Attack Using Segment Anything Model
- Title(参考訳): LocalStyleFool:セグメンテーションモデルによる地域ビデオスタイルの転送攻撃
- Authors: Yuxin Cao, Jinghao Li, Xi Xiao, Derui Wang, Minhui Xue, Hao Ge, Wei Liu, Guangwu Hu,
- Abstract要約: LocalStyleFoolは、ビデオ上の地域スタイルのトランスファーベースの摂動を重畳する、ブラックボックスビデオの敵対攻撃の改良だ。
そこで我々は、LocalStyleFoolがフレーム内およびフレーム間自然性の両方を人為的な調査によって改善できることを実証した。
- 参考スコア(独自算出の注目度): 19.37714374680383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous work has shown that well-crafted adversarial perturbations can threaten the security of video recognition systems. Attackers can invade such models with a low query budget when the perturbations are semantic-invariant, such as StyleFool. Despite the query efficiency, the naturalness of the minutia areas still requires amelioration, since StyleFool leverages style transfer to all pixels in each frame. To close the gap, we propose LocalStyleFool, an improved black-box video adversarial attack that superimposes regional style-transfer-based perturbations on videos. Benefiting from the popularity and scalably usability of Segment Anything Model (SAM), we first extract different regions according to semantic information and then track them through the video stream to maintain the temporal consistency. Then, we add style-transfer-based perturbations to several regions selected based on the associative criterion of transfer-based gradient information and regional area. Perturbation fine adjustment is followed to make stylized videos adversarial. We demonstrate that LocalStyleFool can improve both intra-frame and inter-frame naturalness through a human-assessed survey, while maintaining competitive fooling rate and query efficiency. Successful experiments on the high-resolution dataset also showcase that scrupulous segmentation of SAM helps to improve the scalability of adversarial attacks under high-resolution data.
- Abstract(参考訳): 従来の研究は、よく構築された敵対的摂動が、ビデオ認識システムのセキュリティを脅かす可能性があることを示してきた。
攻撃者は、StyleFoolのような摂動が意味的に不変な場合、クエリ予算の低いモデルに侵入することができる。
StyleFoolは各フレームのすべてのピクセルへのスタイル転送を利用するため、クエリ効率にもかかわらず、ミツイア領域の自然さは依然として改善が必要である。
このギャップを埋めるために、我々はローカルStyleFoolを提案する。これは、ビデオに局所的なスタイル変換に基づく摂動を重畳する、改良されたブラックボックスビデオ対逆攻撃である。
SAM(Segment Anything Model)の人気と使いやすさから、まず意味情報に基づいて異なる領域を抽出し、ビデオストリームを通じて追跡し、時間的整合性を維持する。
そこで我々は,移動に基づく勾配情報や地域情報の連想基準に基づいて選択された複数の領域に,スタイル・トランスファーに基づく摂動を加える。
摂動の微調整が続き、スタイリングされたビデオが逆転する。
そこで我々は、LocalStyleFoolが、人間による調査を通じてフレーム内およびフレーム間自然性の両方を改善しつつ、競争力のある愚かさとクエリ効率を維持できることを実証した。
高解像度データセットで成功した実験は、SAMの急激なセグメンテーションが高解像度データによる敵攻撃のスケーラビリティ向上に役立つことを示した。
関連論文リスト
- UniVST: A Unified Framework for Training-free Localized Video Style Transfer [66.69471376934034]
ローカライズドビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングは不要で、ビデオ全体にわたってスタイルを転送する既存の方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - Boosting Adversarial Transferability with Learnable Patch-wise Masks [16.46210182214551]
敵の例は、異なるモデル間での転送可能性のため、セキュリティクリティカルなアプリケーションで広く注目を集めている。
本稿では、モデル固有の識別領域が、ソースモデルに過度に適合し、ターゲットモデルへの転送可能性を低減する重要な要因であると論じる。
これらの領域を正確にローカライズするために,マスクの自動最適化のための学習可能なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-28T05:32:22Z) - Intra-Source Style Augmentation for Improved Domain Generalization [21.591831983223997]
セマンティックセグメンテーションにおける領域一般化を改善するために,イントラソーススタイル拡張(ISSA)手法を提案する。
ISSAはモデルに依存しず、CNNやTransformerで簡単に適用できる。
また、Cityscapes から Dark Z"urich の最近の最先端ソリューション RobustNet を $3%$ mIoU で改善するなど、他の領域の一般化手法を補完する。
論文 参考訳(メタデータ) (2022-10-18T21:33:25Z) - Enhancing the Self-Universality for Transferable Targeted Attacks [88.6081640779354]
本手法は,高次対角的摂動が標的攻撃に対してより伝達しやすい傾向にあることを示す。
異なる画像上の摂動を最適化する代わりに、異なる領域を最適化して自己ユニバーシティを実現することで、余分なデータを排除することができる。
特徴的類似性欠如により,本手法は,良性画像よりも対向性摂動の特徴が支配的となる。
論文 参考訳(メタデータ) (2022-09-08T11:21:26Z) - Adversarial Style Augmentation for Domain Generalized Urban-Scene
Segmentation [120.96012935286913]
そこで本研究では,学習中にハードなスタイリング画像を生成可能な,新たな対向型拡張手法を提案する。
2つの合成から実のセマンティックセグメンテーションベンチマークの実験により、AdvStyleは目に見えない実領域におけるモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-07-11T14:01:25Z) - StyleFool: Fooling Video Classification Systems via Style Transfer [28.19682215735232]
StyleFool(スタイルフール)は、ビデオ分類システムを騙すために、スタイル転送によるブラックボックスビデオの敵対攻撃である。
StyleFoolは、クエリの数と既存の防御に対する堅牢性の観点から、最先端の敵攻撃よりも優れています。
論文 参考訳(メタデータ) (2022-03-30T02:18:16Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。