論文の概要: Adversarial Video Promotion Against Text-to-Video Retrieval
- arxiv url: http://arxiv.org/abs/2508.06964v1
- Date: Sat, 09 Aug 2025 12:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.630958
- Title: Adversarial Video Promotion Against Text-to-Video Retrieval
- Title(参考訳): テキスト・ツー・ビデオ検索に対する敵対的ビデオプロモーション
- Authors: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Qian Li, Shuai Liu, Chao Shen,
- Abstract要約: 私たちは、ビデオプロモーションアタック(ViPro)と呼ばれる、対向的に動画をプロモートする最初のT2VR攻撃を開拓した。
ViProは他のベースラインを平均30/10/4%以上上回り、ホワイト/グレー/ブラックボックスの設定が可能だ。
- 参考スコア(独自算出の注目度): 12.813881536149237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thanks to the development of cross-modal models, text-to-video retrieval (T2VR) is advancing rapidly, but its robustness remains largely unexamined. Existing attacks against T2VR are designed to push videos away from queries, i.e., suppressing the ranks of videos, while the attacks that pull videos towards selected queries, i.e., promoting the ranks of videos, remain largely unexplored. These attacks can be more impactful as attackers may gain more views/clicks for financial benefits and widespread (mis)information. To this end, we pioneer the first attack against T2VR to promote videos adversarially, dubbed the Video Promotion attack (ViPro). We further propose Modal Refinement (MoRe) to capture the finer-grained, intricate interaction between visual and textual modalities to enhance black-box transferability. Comprehensive experiments cover 2 existing baselines, 3 leading T2VR models, 3 prevailing datasets with over 10k videos, evaluated under 3 scenarios. All experiments are conducted in a multi-target setting to reflect realistic scenarios where attackers seek to promote the video regarding multiple queries simultaneously. We also evaluated our attacks for defences and imperceptibility. Overall, ViPro surpasses other baselines by over $30/10/4\%$ for white/grey/black-box settings on average. Our work highlights an overlooked vulnerability, provides a qualitative analysis on the upper/lower bound of our attacks, and offers insights into potential counterplays. Code will be publicly available at https://github.com/michaeltian108/ViPro.
- Abstract(参考訳): クロスモーダルモデルの開発により、テキスト・ツー・ビデオ検索(T2VR)は急速に進歩しているが、その堅牢性はほとんど検討されていない。
既存のT2VRに対する攻撃は、ビデオがクェリから遠ざかること、すなわちビデオのランクを抑えること、選択したクェリにビデオを引っ張る攻撃、すなわちビデオのランクを宣伝する攻撃など、ほとんど探索されていない。
これらの攻撃は、攻撃者が金銭的利益と広範な(ミス)情報に対してより多くのビューやクリックを得る可能性があるため、より影響を受けやすい。
この目的のために、私たちは、ビデオプロモーションアタック(ViPro)と呼ばれる、反対方向に動画を宣伝するT2VRに対する最初の攻撃を開拓した。
さらに、ブラックボックス転送性を高めるために、視覚的・テキスト的モダリティ間のよりきめ細かな複雑な相互作用を捉えるために、モーダルリファインメント(MoRe)を提案する。
総合的な実験では、2つの既存のベースライン、3つの主要なT2VRモデル、10k以上のビデオを持つ3つの一般的なデータセットが3つのシナリオで評価されている。
すべての実験はマルチターゲット環境で実施され、攻撃者が同時に複数のクエリに関するビデオをプロモートしようとする現実的なシナリオを反映する。
我々はまた、防衛と非受容性に対する攻撃を評価した。
ViProは他のベースラインを30/10/4\%以上上回り、ホワイト/グレー/ブラックボックスの設定を平均で上回っている。
我々の研究は、見過ごされた脆弱性を強調し、攻撃の上下境界に関する質的な分析を提供し、潜在的なカウンタープレイに関する洞察を提供する。
コードはhttps://github.com/michaeltian108/ViPro.comで公開される。
関連論文リスト
- T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation [37.055665794706336]
テキスト・ツー・ビデオ(T2V)生成モデルは急速に進歩し、エンターテイメント、教育、マーケティングといった分野に広く応用されている。
我々は、T2V生成タスクにおいて、生成されたビデオはテキストプロンプトに明示的に指定されていないかなりの冗長な情報を含むことが多いことを観察する。
我々は、T2V生成に適した最初のバックドアアタックフレームワークであるBadVideoを紹介した。
論文 参考訳(メタデータ) (2025-04-23T17:34:48Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - StyleFool: Fooling Video Classification Systems via Style Transfer [28.19682215735232]
StyleFool(スタイルフール)は、ビデオ分類システムを騙すために、スタイル転送によるブラックボックスビデオの敵対攻撃である。
StyleFoolは、クエリの数と既存の防御に対する堅牢性の観点から、最先端の敵攻撃よりも優れています。
論文 参考訳(メタデータ) (2022-03-30T02:18:16Z) - Attacking Video Recognition Models with Bullet-Screen Comments [79.53159486470858]
本稿では,BSC攻撃による映像認識モデルに対する新たな敵攻撃を提案する。
BSCは一種の意味のあるパッチと見なすことができ、クリーンなビデオに追加しても、ビデオの内容に対する人々の理解に影響を与えたり、人々の疑念を喚起したりしない。
論文 参考訳(メタデータ) (2021-10-29T08:55:50Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - Overcomplete Representations Against Adversarial Videos [72.04912755926524]
敵対ビデオ(OUDefend)に対する防御のための新しいオーバー・アンド・アンダー完全修復ネットワークを提案します。
OUDefendは、これらの2つの表現を学習することで、ローカル機能とグローバル機能のバランスをとるように設計されている。
実験の結果,画像に焦点をあてた防御はビデオに効果がない可能性があるが,oudefendは異なるタイプの敵ビデオに対して頑健性を高める。
論文 参考訳(メタデータ) (2020-12-08T08:00:17Z) - MultAV: Multiplicative Adversarial Videos [71.94264837503135]
本稿では,ビデオ認識モデルに対する新たな攻撃手法であるMultAVを提案する。
MultAVは乗算によってビデオデータに摂動を課す。
実験結果から,MultAV に対する加法攻撃に対して逆向きに訓練したモデルでは,MultAV に対するロバスト性が低いことが示された。
論文 参考訳(メタデータ) (2020-09-17T04:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。