論文の概要: Can You Trust What You See? Alpha Channel No-Box Attacks on Video Object Detection
- arxiv url: http://arxiv.org/abs/2510.19574v1
- Date: Wed, 22 Oct 2025 13:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.827319
- Title: Can You Trust What You See? Alpha Channel No-Box Attacks on Video Object Detection
- Title(参考訳): ビデオの物体検出でAlpha Channelのノーボックス攻撃を信用できる?
- Authors: Ariana Yi, Ce Zhou, Liyang Xiao, Qiben Yan,
- Abstract要約: 我々は、RGBAビデオのアルファチャンネルを介して完全に動作するオブジェクト検出器に対する最初のノンボックス対逆攻撃であるα-Cloakを提示する。
Alpha-Cloakはアルファチャンネルを利用して、悪意のあるターゲットビデオと良心的なビデオとを融合させる。
- 参考スコア(独自算出の注目度): 4.336410716083664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As object detection models are increasingly deployed in cyber-physical systems such as autonomous vehicles (AVs) and surveillance platforms, ensuring their security against adversarial threats is essential. While prior work has explored adversarial attacks in the image domain, those attacks in the video domain remain largely unexamined, especially in the no-box setting. In this paper, we present {\alpha}-Cloak, the first no-box adversarial attack on object detectors that operates entirely through the alpha channel of RGBA videos. {\alpha}-Cloak exploits the alpha channel to fuse a malicious target video with a benign video, resulting in a fused video that appears innocuous to human viewers but consistently fools object detectors. Our attack requires no access to model architecture, parameters, or outputs, and introduces no perceptible artifacts. We systematically study the support for alpha channels across common video formats and playback applications, and design a fusion algorithm that ensures visual stealth and compatibility. We evaluate {\alpha}-Cloak on five state-of-the-art object detectors, a vision-language model, and a multi-modal large language model (Gemini-2.0-Flash), demonstrating a 100% attack success rate across all scenarios. Our findings reveal a previously unexplored vulnerability in video-based perception systems, highlighting the urgent need for defenses that account for the alpha channel in adversarial settings.
- Abstract(参考訳): オブジェクト検出モデルは、自動運転車(AV)や監視プラットフォームなどのサイバー物理システムにますますデプロイされているため、敵の脅威に対するセキュリティを確保することが不可欠である。
以前の研究では、画像領域における敵攻撃を探索してきたが、ビデオ領域における攻撃は、特にノーボックス設定では、ほとんど検討されていない。
本稿では、RGBAビデオのアルファチャネルを介して完全に動作するオブジェクト検出器に対する、最初のノンボックス対逆攻撃である {\alpha}-Cloakを紹介する。
{\alpha}-Cloakはアルファチャンネルを利用して、悪意のあるターゲットビデオと良心的なビデオとを融合させる。
私たちの攻撃では、モデルアーキテクチャ、パラメータ、アウトプットへのアクセスは不要で、知覚可能なアーティファクトは不要です。
我々は、一般的なビデオフォーマットや再生アプリケーションにわたるアルファチャンネルのサポートを体系的に研究し、視覚的ステルスと互換性を保証する融合アルゴリズムを設計する。
我々は,5つの最先端オブジェクト検出器,ビジョン言語モデル,マルチモーダル大言語モデル(Gemini-2.0-Flash)について評価し,全シナリオで100%の攻撃成功率を示す。
以上の結果から,ビデオベース認識システムにおける未発見の脆弱性が明らかとなり,対向的な環境下でのαチャネルを考慮に入れた防衛の必要性が浮き彫りになった。
関連論文リスト
- Temporal-Distributed Backdoor Attack Against Video Based Action
Recognition [21.916002204426853]
ビデオデータに対する、シンプルで効果的なバックドア攻撃を導入する。
我々の提案した攻撃は、変換されたドメインに摂動を加えることで、ビデオフレームに知覚不能で時間的に分散されたトリガーを配置する。
論文 参考訳(メタデータ) (2023-08-21T22:31:54Z) - Look, Listen, and Attack: Backdoor Attacks Against Video Action
Recognition [53.720010650445516]
有毒ラベル画像のバックドア攻撃は静的かつ動的に2つの時間的拡張が可能であることを示す。
さらに、ビデオ領域におけるこの脆弱性の深刻さを強調するために、自然なビデオバックドアを探索する。
また,ビデオ行動認識モデルに対するマルチモーダル(オービジュアル)バックドアアタックを初めて検討した。
論文 参考訳(メタデータ) (2023-01-03T07:40:28Z) - Adversarial Detection: Attacking Object Detection in Real Time [10.547024752811437]
本稿では,オブジェクト検出モデルに対する最初のリアルタイムオンライン攻撃を提案する。
所望の場所で非存在オブジェクトのバウンディングボックスを構成する3つの攻撃を考案する。
この攻撃は、約20回のイテレーションで約90%の成功率を達成する。
論文 参考訳(メタデータ) (2022-09-05T13:32:41Z) - Temporal Shuffling for Defending Deep Action Recognition Models against
Adversarial Attacks [67.58887471137436]
本研究では,動作認識モデルに対する対人攻撃に対して,入力ビデオの時間的シャッフルを用いた新しい防御手法を開発した。
我々の知る限りでは、これは3D CNNに基づく映像行動認識モデルのための追加トレーニングなしで防御方法を設計する最初の試みである。
論文 参考訳(メタデータ) (2021-12-15T06:57:01Z) - Attacking Video Recognition Models with Bullet-Screen Comments [79.53159486470858]
本稿では,BSC攻撃による映像認識モデルに対する新たな敵攻撃を提案する。
BSCは一種の意味のあるパッチと見なすことができ、クリーンなビデオに追加しても、ビデオの内容に対する人々の理解に影響を与えたり、人々の疑念を喚起したりしない。
論文 参考訳(メタデータ) (2021-10-29T08:55:50Z) - Overcomplete Representations Against Adversarial Videos [72.04912755926524]
敵対ビデオ(OUDefend)に対する防御のための新しいオーバー・アンド・アンダー完全修復ネットワークを提案します。
OUDefendは、これらの2つの表現を学習することで、ローカル機能とグローバル機能のバランスをとるように設計されている。
実験の結果,画像に焦点をあてた防御はビデオに効果がない可能性があるが,oudefendは異なるタイプの敵ビデオに対して頑健性を高める。
論文 参考訳(メタデータ) (2020-12-08T08:00:17Z) - MultAV: Multiplicative Adversarial Videos [71.94264837503135]
本稿では,ビデオ認識モデルに対する新たな攻撃手法であるMultAVを提案する。
MultAVは乗算によってビデオデータに摂動を課す。
実験結果から,MultAV に対する加法攻撃に対して逆向きに訓練したモデルでは,MultAV に対するロバスト性が低いことが示された。
論文 参考訳(メタデータ) (2020-09-17T04:34:39Z) - Clean-Label Backdoor Attacks on Video Recognition Models [87.46539956587908]
画像バックドア攻撃は、ビデオでははるかに効果が低いことを示す。
本稿では,映像認識モデルに対するバックドアトリガとして,ユニバーサル・ディバイサル・トリガーを提案する。
提案したバックドア攻撃は,最先端のバックドア防御・検出手法に耐性がある。
論文 参考訳(メタデータ) (2020-03-06T04:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。