論文の概要: LocalStyleFool: Regional Video Style Transfer Attack Using Segment Anything Model
- arxiv url: http://arxiv.org/abs/2403.11656v2
- Date: Wed, 27 Mar 2024 09:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:34:33.701476
- Title: LocalStyleFool: Regional Video Style Transfer Attack Using Segment Anything Model
- Title(参考訳): LocalStyleFool:セグメンテーションモデルによる地域ビデオスタイルの転送攻撃
- Authors: Yuxin Cao, Jinghao Li, Xi Xiao, Derui Wang, Minhui Xue, Hao Ge, Wei Liu, Guangwu Hu,
- Abstract要約: LocalStyleFoolは、ビデオ上の地域スタイルのトランスファーベースの摂動を重畳する、ブラックボックスビデオの敵対攻撃の改良だ。
そこで我々は、LocalStyleFoolがフレーム内およびフレーム間自然性の両方を人為的な調査によって改善できることを実証した。
- 参考スコア(独自算出の注目度): 19.37714374680383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous work has shown that well-crafted adversarial perturbations can threaten the security of video recognition systems. Attackers can invade such models with a low query budget when the perturbations are semantic-invariant, such as StyleFool. Despite the query efficiency, the naturalness of the minutia areas still requires amelioration, since StyleFool leverages style transfer to all pixels in each frame. To close the gap, we propose LocalStyleFool, an improved black-box video adversarial attack that superimposes regional style-transfer-based perturbations on videos. Benefiting from the popularity and scalably usability of Segment Anything Model (SAM), we first extract different regions according to semantic information and then track them through the video stream to maintain the temporal consistency. Then, we add style-transfer-based perturbations to several regions selected based on the associative criterion of transfer-based gradient information and regional area. Perturbation fine adjustment is followed to make stylized videos adversarial. We demonstrate that LocalStyleFool can improve both intra-frame and inter-frame naturalness through a human-assessed survey, while maintaining competitive fooling rate and query efficiency. Successful experiments on the high-resolution dataset also showcase that scrupulous segmentation of SAM helps to improve the scalability of adversarial attacks under high-resolution data.
- Abstract(参考訳): 従来の研究は、よく構築された敵対的摂動が、ビデオ認識システムのセキュリティを脅かす可能性があることを示してきた。
攻撃者は、StyleFoolのような摂動が意味的に不変な場合、クエリ予算の低いモデルに侵入することができる。
StyleFoolは各フレームのすべてのピクセルへのスタイル転送を利用するため、クエリ効率にもかかわらず、ミツイア領域の自然さは依然として改善が必要である。
このギャップを埋めるために、我々はローカルStyleFoolを提案する。これは、ビデオに局所的なスタイル変換に基づく摂動を重畳する、改良されたブラックボックスビデオ対逆攻撃である。
SAM(Segment Anything Model)の人気と使いやすさから、まず意味情報に基づいて異なる領域を抽出し、ビデオストリームを通じて追跡し、時間的整合性を維持する。
そこで我々は,移動に基づく勾配情報や地域情報の連想基準に基づいて選択された複数の領域に,スタイル・トランスファーに基づく摂動を加える。
摂動の微調整が続き、スタイリングされたビデオが逆転する。
そこで我々は、LocalStyleFoolが、人間による調査を通じてフレーム内およびフレーム間自然性の両方を改善しつつ、競争力のある愚かさとクエリ効率を維持できることを実証した。
高解像度データセットで成功した実験は、SAMの急激なセグメンテーションが高解像度データによる敵攻撃のスケーラビリティ向上に役立つことを示した。
関連論文リスト
- SVasP: Self-Versatility Adversarial Style Perturbation for Cross-Domain Few-Shot Learning [21.588320570295835]
Cross-Domain Few-Shot Learningは、見知らぬソースドメインから見つからないターゲットドメインに知識を移行することを目的としている。
近年の研究では、異なるドメイン間のドメインギャップを橋渡しするための視覚的スタイルの利用に焦点が当てられている。
本稿では,アンダーラインtextbfSelf-underlinetextbfVersatility と呼ばれる新しい作物群集スタイルを提案する。
論文 参考訳(メタデータ) (2024-12-12T08:58:42Z) - UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統合フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - Intra-Source Style Augmentation for Improved Domain Generalization [21.591831983223997]
セマンティックセグメンテーションにおける領域一般化を改善するために,イントラソーススタイル拡張(ISSA)手法を提案する。
ISSAはモデルに依存しず、CNNやTransformerで簡単に適用できる。
また、Cityscapes から Dark Z"urich の最近の最先端ソリューション RobustNet を $3%$ mIoU で改善するなど、他の領域の一般化手法を補完する。
論文 参考訳(メタデータ) (2022-10-18T21:33:25Z) - Enhancing the Self-Universality for Transferable Targeted Attacks [88.6081640779354]
本手法は,高次対角的摂動が標的攻撃に対してより伝達しやすい傾向にあることを示す。
異なる画像上の摂動を最適化する代わりに、異なる領域を最適化して自己ユニバーシティを実現することで、余分なデータを排除することができる。
特徴的類似性欠如により,本手法は,良性画像よりも対向性摂動の特徴が支配的となる。
論文 参考訳(メタデータ) (2022-09-08T11:21:26Z) - Adversarial Style Augmentation for Domain Generalized Urban-Scene
Segmentation [120.96012935286913]
そこで本研究では,学習中にハードなスタイリング画像を生成可能な,新たな対向型拡張手法を提案する。
2つの合成から実のセマンティックセグメンテーションベンチマークの実験により、AdvStyleは目に見えない実領域におけるモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-07-11T14:01:25Z) - StyleFool: Fooling Video Classification Systems via Style Transfer [28.19682215735232]
StyleFool(スタイルフール)は、ビデオ分類システムを騙すために、スタイル転送によるブラックボックスビデオの敵対攻撃である。
StyleFoolは、クエリの数と既存の防御に対する堅牢性の観点から、最先端の敵攻撃よりも優れています。
論文 参考訳(メタデータ) (2022-03-30T02:18:16Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。