Fugu-MT 論文翻訳(概要): LocalStyleFool: Regional Video Style Transfer Attack Using Segment Anything Model

論文の概要: LocalStyleFool: Regional Video Style Transfer Attack Using Segment Anything Model

arxiv url: http://arxiv.org/abs/2403.11656v1
Date: Mon, 18 Mar 2024 10:53:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 15:37:57.413842
Title: LocalStyleFool: Regional Video Style Transfer Attack Using Segment Anything Model
Title（参考訳）: LocalStyleFool:セグメンテーションモデルによる地域ビデオスタイルの転送攻撃
Authors: Yuxin Cao, Jinghao Li, Xi Xiao, Derui Wang, Minhui Xue, Hao Ge, Wei Liu, Guangwu Hu,
Abstract要約: LocalStyleFoolは、ビデオ上の地域スタイルのトランスファーベースの摂動を重畳する、ブラックボックスビデオの敵対攻撃の改良だ。そこで我々は、LocalStyleFoolがフレーム内およびフレーム間自然性の両方を人為的な調査によって改善できることを実証した。
参考スコア（独自算出の注目度）: 19.37714374680383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Previous work has shown that well-crafted adversarial perturbations can threaten the security of video recognition systems. Attackers can invade such models with a low query budget when the perturbations are semantic-invariant, such as StyleFool. Despite the query efficiency, the naturalness of the minutia areas still requires amelioration, since StyleFool leverages style transfer to all pixels in each frame. To close the gap, we propose LocalStyleFool, an improved black-box video adversarial attack that superimposes regional style-transfer-based perturbations on videos. Benefiting from the popularity and scalably usability of Segment Anything Model (SAM), we first extract different regions according to semantic information and then track them through the video stream to maintain the temporal consistency. Then, we add style-transfer-based perturbations to several regions selected based on the associative criterion of transfer-based gradient information and regional area. Perturbation fine adjustment is followed to make stylized videos adversarial. We demonstrate that LocalStyleFool can improve both intra-frame and inter-frame naturalness through a human-assessed survey, while maintaining competitive fooling rate and query efficiency. Successful experiments on the high-resolution dataset also showcase that scrupulous segmentation of SAM helps to improve the scalability of adversarial attacks under high-resolution data.
Abstract（参考訳）: 従来の研究は、よく構築された敵対的摂動が、ビデオ認識システムのセキュリティを脅かす可能性があることを示してきた。攻撃者は、StyleFoolのような摂動が意味的に不変な場合、クエリ予算の低いモデルに侵入することができる。 StyleFoolは各フレームのすべてのピクセルへのスタイル転送を利用するため、クエリ効率にもかかわらず、ミツイア領域の自然さは依然として改善が必要である。このギャップを埋めるために、我々はローカルStyleFoolを提案する。これは、ビデオに局所的なスタイル変換に基づく摂動を重畳する、改良されたブラックボックスビデオ対逆攻撃である。 SAM(Segment Anything Model)の人気と使いやすさから、まず意味情報に基づいて異なる領域を抽出し、ビデオストリームを通じて追跡し、時間的整合性を維持する。そこで我々は,移動に基づく勾配情報や地域情報の連想基準に基づいて選択された複数の領域に,スタイル・トランスファーに基づく摂動を加える。摂動の微調整が続き、スタイリングされたビデオが逆転する。そこで我々は、LocalStyleFoolが、人間による調査を通じてフレーム内およびフレーム間自然性の両方を改善しつつ、競争力のある愚かさとクエリ効率を維持できることを実証した。高解像度データセットで成功した実験は、SAMの急激なセグメンテーションが高解像度データによる敵攻撃のスケーラビリティ向上に役立つことを示した。

関連論文リスト

RegionRoute: Regional Style Transfer with Diffusion Model [31.189878461660115]
本研究では,学習中の物体マスクとスタイルトークンのアテンションスコアをアライメントすることで,特定のスタイルをどこに適用すべきかをモデルに教える,注意制御拡散フレームワークを提案する。モジュール化されたLoRA-MoEの設計により、より効率的でスケーラブルなマルチスタイルの適応が可能になる。実験の結果,提案手法は推論時にマスクフリーで単一オブジェクトスタイルの転送を実現することがわかった。
論文参考訳（メタデータ） (2026-02-22T16:11:07Z)
SAGE: Style-Adaptive Generalization for Privacy-Constrained Semantic Segmentation Across Domains [13.393232074517387]
textbfSAGEは、プライバシー制約下での凍結モデルの一般化を改善する。まず、ソースドメインの多様なスタイル表現を構築するためにスタイル転送を利用する。そして、モデルが各入力の視覚的コンテキストに応じてこれらのスタイルキューを適応的に融合し、動的プロンプトを形成する。
論文参考訳（メタデータ） (2025-12-02T03:20:22Z)
Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。 EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-10-04T15:23:07Z)
MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on [16.0505428363005]
大規模なビデオ拡散変換器上に構築された仮想仮想試行フレームワークMagicTryOnを提案する。我々は、U-Netアーキテクチャを拡散変換器に置き換え、ビデオの服飾一貫性をモデル化するために完全な自己アテンションを組み合わせる。提案手法は,既存のSOTA法を総合評価で上回り,現場シナリオに一般化する。
論文参考訳（メタデータ） (2025-05-27T15:22:02Z)
SVasP: Self-Versatility Adversarial Style Perturbation for Cross-Domain Few-Shot Learning [21.588320570295835]
Cross-Domain Few-Shot Learningは、見知らぬソースドメインから見つからないターゲットドメインに知識を移行することを目的としている。近年の研究では、異なるドメイン間のドメインギャップを橋渡しするための視覚的スタイルの利用に焦点が当てられている。本稿では,アンダーラインtextbfSelf-underlinetextbfVersatility と呼ばれる新しい作物群集スタイルを提案する。
論文参考訳（メタデータ） (2024-12-12T08:58:42Z)
UniVST: A Unified Framework for Training-free Localized Video Style Transfer [66.69471376934034]
ローカライズドビデオスタイル転送のための統一フレームワークUniVSTを提案する。トレーニングは不要で、ビデオ全体にわたってスタイルを転送する既存の方法に対して、明確なアドバンテージを提供する。
論文参考訳（メタデータ） (2024-10-26T05:28:02Z)
Boosting Adversarial Transferability with Learnable Patch-wise Masks [16.46210182214551]
敵の例は、異なるモデル間での転送可能性のため、セキュリティクリティカルなアプリケーションで広く注目を集めている。本稿では、モデル固有の識別領域が、ソースモデルに過度に適合し、ターゲットモデルへの転送可能性を低減する重要な要因であると論じる。これらの領域を正確にローカライズするために,マスクの自動最適化のための学習可能なアプローチを提案する。
論文参考訳（メタデータ） (2023-06-28T05:32:22Z)
A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文参考訳（メタデータ） (2023-01-12T18:19:00Z)
Intra-Source Style Augmentation for Improved Domain Generalization [21.591831983223997]
セマンティックセグメンテーションにおける領域一般化を改善するために,イントラソーススタイル拡張(ISSA)手法を提案する。 ISSAはモデルに依存しず、CNNやTransformerで簡単に適用できる。また、Cityscapes から Dark Z"urich の最近の最先端ソリューション RobustNet を $3%$ mIoU で改善するなど、他の領域の一般化手法を補完する。
論文参考訳（メタデータ） (2022-10-18T21:33:25Z)
Enhancing the Self-Universality for Transferable Targeted Attacks [88.6081640779354]
本手法は,高次対角的摂動が標的攻撃に対してより伝達しやすい傾向にあることを示す。異なる画像上の摂動を最適化する代わりに、異なる領域を最適化して自己ユニバーシティを実現することで、余分なデータを排除することができる。特徴的類似性欠如により,本手法は,良性画像よりも対向性摂動の特徴が支配的となる。
論文参考訳（メタデータ） (2022-09-08T11:21:26Z)
Adversarial Style Augmentation for Domain Generalized Urban-Scene Segmentation [120.96012935286913]
そこで本研究では,学習中にハードなスタイリング画像を生成可能な,新たな対向型拡張手法を提案する。 2つの合成から実のセマンティックセグメンテーションベンチマークの実験により、AdvStyleは目に見えない実領域におけるモデル性能を大幅に改善できることを示した。
論文参考訳（メタデータ） (2022-07-11T14:01:25Z)
StyleFool: Fooling Video Classification Systems via Style Transfer [28.19682215735232]
StyleFool(スタイルフール)は、ビデオ分類システムを騙すために、スタイル転送によるブラックボックスビデオの敵対攻撃である。 StyleFoolは、クエリの数と既存の防御に対する堅牢性の観点から、最先端の敵攻撃よりも優れています。
論文参考訳（メタデータ） (2022-03-30T02:18:16Z)
Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文参考訳（メタデータ） (2021-11-27T05:35:10Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文参考訳（メタデータ） (2021-10-22T04:35:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。