論文の概要: From Pretrain to Pain: Adversarial Vulnerability of Video Foundation Models Without Task Knowledge
- arxiv url: http://arxiv.org/abs/2511.07049v1
- Date: Mon, 10 Nov 2025 12:42:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.247085
- Title: From Pretrain to Pain: Adversarial Vulnerability of Video Foundation Models Without Task Knowledge
- Title(参考訳): プレトレーニングから痛みへ:タスク知識のないビデオファンデーションモデルの敵対的脆弱性
- Authors: Hui Lu, Yi Yu, Song Xia, Yiming Yang, Deepu Rajan, Boon Poh Ng, Alex Kot, Xudong Jiang,
- Abstract要約: 本稿では、ダウンストリームモデルやオープンソースのVFMから微調整されたMLLMを攻撃することによる、新規で実用的な敵の脅威シナリオについて検討する。
本稿では,VFMの時間的表現ダイナミクスを利用して効果的な摂動を発生させる,時間的対応型対向攻撃手法であるTransferable Video Attack (TVA)を提案する。
TVAは高価なサロゲートモデルのトレーニングやドメイン固有のデータへのアクセスを回避し、より実用的で効率的な攻撃戦略を提供する。
- 参考スコア(独自算出の注目度): 57.379583179331426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Video Foundation Models (VFMs) has significantly advanced various video-related tasks, either through task-specific models or Multi-modal Large Language Models (MLLMs). However, the open accessibility of VFMs also introduces critical security risks, as adversaries can exploit full knowledge of the VFMs to launch potent attacks. This paper investigates a novel and practical adversarial threat scenario: attacking downstream models or MLLMs fine-tuned from open-source VFMs, without requiring access to the victim task, training data, model query, and architecture. In contrast to conventional transfer-based attacks that rely on task-aligned surrogate models, we demonstrate that adversarial vulnerabilities can be exploited directly from the VFMs. To this end, we propose the Transferable Video Attack (TVA), a temporal-aware adversarial attack method that leverages the temporal representation dynamics of VFMs to craft effective perturbations. TVA integrates a bidirectional contrastive learning mechanism to maximize the discrepancy between the clean and adversarial features, and introduces a temporal consistency loss that exploits motion cues to enhance the sequential impact of perturbations. TVA avoids the need to train expensive surrogate models or access to domain-specific data, thereby offering a more practical and efficient attack strategy. Extensive experiments across 24 video-related tasks demonstrate the efficacy of TVA against downstream models and MLLMs, revealing a previously underexplored security vulnerability in the deployment of video models.
- Abstract(参考訳): 大規模ビデオファウンデーションモデル(VFM)は、タスク固有のモデルやMLLM(Multi-modal Large Language Models)を通じて、様々なビデオ関連タスクを著しく進歩させてきた。
しかしながら、VFMのオープンアクセシビリティは、敵が強力な攻撃を開始するためにVFMの完全な知識を活用できるため、重大なセキュリティリスクも引き起こす。
本稿では,ダウンストリームモデルやMLLMを,被害者のタスクやトレーニングデータ,モデルクエリ,アーキテクチャへのアクセスを必要とせずに,オープンソースVFMから微調整する,新たな,現実的な敵の脅威シナリオについて検討する。
タスクアライン・サロゲートモデルに依存する従来の転送ベースの攻撃とは対照的に,VFMから直接敵の脆弱性を悪用できることを実証する。
そこで本研究では,VFMの時間的表現ダイナミクスを利用して効果的な摂動を発生させる,時間的対応型対向攻撃手法であるTransferable Video Attack (TVA)を提案する。
TVAは、双方向のコントラスト学習機構を統合し、クリーンな特徴と敵対的な特徴の相違を最大化し、動きの手がかりを利用して摂動のシーケンシャルな影響を高める時間的一貫性の喪失を導入する。
TVAは高価なサロゲートモデルのトレーニングやドメイン固有のデータへのアクセスを回避し、より実用的で効率的な攻撃戦略を提供する。
24のビデオ関連タスクにわたる大規模な実験は、ダウンストリームモデルとMLLMに対するTVAの有効性を示し、ビデオモデルのデプロイにおいて、これまで未調査のセキュリティ脆弱性が明らかになった。
関連論文リスト
- Model Inversion Attacks on Vision-Language Models: Do They Leak What They Learn? [22.1843868052012]
モデル反転(MI)攻撃は、トレーニングされたニューラルネットワークからプライベートトレーニングデータを再構築することで、重大なプライバシーリスクを引き起こす。
視覚訓練データを漏洩する際の視覚言語モデル(VLM)の脆弱性を理解するための最初の研究を行う。
本稿では,新しいトークンベースおよびシーケンスベースモデルインバージョン戦略を提案する。
論文 参考訳(メタデータ) (2025-08-06T05:30:05Z) - CAVALRY-V: A Large-Scale Generator Framework for Adversarial Attacks on Video MLLMs [13.238196682784562]
CAVALRY-V (Cross-modal Language-Vision Adversarial Yielding for Videos) は,大規模言語モデルにおける視覚知覚と言語生成のクリティカルインターフェースをターゲットとした,新しいフレームワークである。
我々のフレームワークは、明示的な正規化ではなく、暗黙の時間的コヒーレンスモデリングによって柔軟性を達成し、画像理解においても大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-01T14:48:27Z) - Attacking Attention of Foundation Models Disrupts Downstream Tasks [18.92561703051693]
ファンデーションモデルは大規模なモデルであり、多くの下流タスクで高い精度を提供する広範囲なデータに基づいて訓練されている。
これらのモデルは敵の攻撃に弱い。
本稿では,CLIP と ViT に着目した視覚基盤モデルの脆弱性について検討する。
タスクに依存しない方法でトランスフォーマーアーキテクチャの構造をターゲットとした,新たな攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-06-03T19:42:48Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Feedback-based Modal Mutual Search for Attacking Vision-Language Pre-training Models [8.943713711458633]
我々は、フィードバックベースのモーダル・ミューチュアル・サーチ(FMMS)と呼ばれる新たな攻撃パラダイムを提案する。
FMMSは、マッチした画像とテキストのペアをランダムに描画しながら、特徴空間に不一致のペアを描画することを目的としている。
これは、ターゲットモデルフィードバックを利用して、マルチモーダリティの逆境を探索する最初の試みである。
論文 参考訳(メタデータ) (2024-08-27T02:31:39Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。