論文の概要: FeatureFool: Zero-Query Fooling of Video Models via Feature Map
- arxiv url: http://arxiv.org/abs/2510.18362v2
- Date: Wed, 22 Oct 2025 02:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.130789
- Title: FeatureFool: Zero-Query Fooling of Video Models via Feature Map
- Title(参考訳): FeatureFool: フィーチャーマップによるビデオモデルのゼロクエリフーリング
- Authors: Duoxun Tang, Xi Xiao, Guangwu Hu, Kangkang Sun, Xiao Yang, Dongyang Chen, Qing Li, Yongjie Yin, Jiyao Wang,
- Abstract要約: ブラックボックスの敵攻撃は通常、モデルとの複数ラウンドの相互作用を必要とする。
ビデオ領域のアタックは、機能マップを直接活用して、クリーンなビデオ機能空間をシフトする。
ステルスでビデオドメイン、ゼロクエリのブラックボックス攻撃であるFeatureFoolを提案する。
- 参考スコア(独自算出の注目度): 19.133399082904212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vulnerability of deep neural networks (DNNs) has been preliminarily verified. Existing black-box adversarial attacks usually require multi-round interaction with the model and consume numerous queries, which is impractical in the real-world and hard to scale to recently emerged Video-LLMs. Moreover, no attack in the video domain directly leverages feature maps to shift the clean-video feature space. We therefore propose FeatureFool, a stealthy, video-domain, zero-query black-box attack that utilizes information extracted from a DNN to alter the feature space of clean videos. Unlike query-based methods that rely on iterative interaction, FeatureFool performs a zero-query attack by directly exploiting DNN-extracted information. This efficient approach is unprecedented in the video domain. Experiments show that FeatureFool achieves an attack success rate above 70\% against traditional video classifiers without any queries. Benefiting from the transferability of the feature map, it can also craft harmful content and bypass Video-LLM recognition. Additionally, adversarial videos generated by FeatureFool exhibit high quality in terms of SSIM, PSNR, and Temporal-Inconsistency, making the attack barely perceptible. This paper may contain violent or explicit content.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の脆弱性は、事前に検証されている。
既存のブラックボックスの敵攻撃は、通常、モデルとのマルチラウンドの相互作用を必要とし、多数のクエリを消費する。
さらに、ビデオ領域における攻撃は、クリーンなビデオ機能空間をシフトするために、機能マップを直接利用しない。
そこで我々は、DNNから抽出された情報を利用してクリーンビデオの特徴空間を変更する、ステルスでビデオドメインのゼロクエリブラックボックス攻撃であるFeatureFoolを提案する。
反復的なインタラクションに依存するクエリベースのメソッドとは異なり、FeatureFoolはDNN抽出情報を直接利用してゼロクエリアタックを実行する。
この効率的なアプローチはビデオ領域では前例がない。
実験によると、FeatureFoolは、クエリなしで従来のビデオ分類器に対して70%以上の攻撃成功率を達成する。
機能マップの転送性から恩恵を受け、有害なコンテンツを作成し、ビデオ-LLM認識をバイパスすることもできる。
さらに、FeatureFoolが生成した敵対的ビデオは、SSIM、PSNR、テンポラル・一貫性の点で高い品質を示しており、攻撃はほとんど認識できない。
本論文は暴力的あるいは明示的な内容を含むことができる。
関連論文リスト
- TenAd: A Tensor-based Low-rank Black Box Adversarial Attack for Video Classification [1.3121410433987561]
textbfTenAdは低ランクの敵対攻撃であり、ビデオを4階テンソルとして表現することで、ビデオデータの多次元特性を活用する。
提案手法は,既存のブラックボックス攻撃に対して,成功率,クエリ効率,摂動障害などの点で優れる。
論文 参考訳(メタデータ) (2025-04-01T22:35:28Z) - FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs [57.59518049930211]
本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。
我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。
我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
論文 参考訳(メタデータ) (2024-03-20T11:05:07Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - Adversarial Self-Attack Defense and Spatial-Temporal Relation Mining for
Visible-Infrared Video Person Re-Identification [24.9205771457704]
本稿では,新しい視点,すなわち対人自己防衛と時空間的関係のマイニングから,新しい可視赤外ビデオパーソン re-ID 手法を提案する。
提案手法は,大規模なクロスモダリティビデオデータセットにおいて魅力的な性能を示す。
論文 参考訳(メタデータ) (2023-07-08T05:03:10Z) - Attacking Video Recognition Models with Bullet-Screen Comments [79.53159486470858]
本稿では,BSC攻撃による映像認識モデルに対する新たな敵攻撃を提案する。
BSCは一種の意味のあるパッチと見なすことができ、クリーンなビデオに追加しても、ビデオの内容に対する人々の理解に影響を与えたり、人々の疑念を喚起したりしない。
論文 参考訳(メタデータ) (2021-10-29T08:55:50Z) - MultAV: Multiplicative Adversarial Videos [71.94264837503135]
本稿では,ビデオ認識モデルに対する新たな攻撃手法であるMultAVを提案する。
MultAVは乗算によってビデオデータに摂動を課す。
実験結果から,MultAV に対する加法攻撃に対して逆向きに訓練したモデルでは,MultAV に対するロバスト性が低いことが示された。
論文 参考訳(メタデータ) (2020-09-17T04:34:39Z) - Over-the-Air Adversarial Flickering Attacks against Video Recognition
Networks [54.82488484053263]
ビデオ分類のためのディープニューラルネットワークは、敵の操作を受けることができる。
本稿では,フリックング時間摂動を導入することで,ビデオ分類器を騙す操作手法を提案する。
攻撃はいくつかの標的モデルに実装され、攻撃の伝達性が実証された。
論文 参考訳(メタデータ) (2020-02-12T17:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。