論文の概要: VidLeaks: Membership Inference Attacks Against Text-to-Video Models
- arxiv url: http://arxiv.org/abs/2601.11210v1
- Date: Fri, 16 Jan 2026 11:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.47322
- Title: VidLeaks: Membership Inference Attacks Against Text-to-Video Models
- Title(参考訳): VidLeaks: テキスト対ビデオモデルに対するメンバーシップ推論攻撃
- Authors: Li Wang, Wenyu Chen, Ning Yu, Zheng Li, Shanqing Guo,
- Abstract要約: メンバーシップ推論攻撃(MIA)は、著作権やプライバシー侵害を監査するための原則化されたツールである。
2つの相補的な信号を通してスパース時間記憶を探索する新しいフレームワークVidLeaksを導入する。
我々の研究は、T2Vリークがスパース記憶と時間記憶の両方を通して、かなりのメンバーシップ情報をモデル化した最初の具体的な証拠を提供する。
- 参考スコア(独自算出の注目度): 17.443499650679964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of powerful Text-to-Video (T2V) models, trained on massive web-scale datasets, raises urgent concerns about copyright and privacy violations. Membership inference attacks (MIAs) provide a principled tool for auditing such risks, yet existing techniques - designed for static data like images or text - fail to capture the spatio-temporal complexities of video generation. In particular, they overlook the sparsity of memorization signals in keyframes and the instability introduced by stochastic temporal dynamics. In this paper, we conduct the first systematic study of MIAs against T2V models and introduce a novel framework VidLeaks, which probes sparse-temporal memorization through two complementary signals: 1) Spatial Reconstruction Fidelity (SRF), using a Top-K similarity to amplify spatial memorization signals from sparsely memorized keyframes, and 2) Temporal Generative Stability (TGS), which measures semantic consistency across multiple queries to capture temporal leakage. We evaluate VidLeaks under three progressively restrictive black-box settings - supervised, reference-based, and query-only. Experiments on three representative T2V models reveal severe vulnerabilities: VidLeaks achieves AUC of 82.92% on AnimateDiff and 97.01% on InstructVideo even in the strict query-only setting, posing a realistic and exploitable privacy risk. Our work provides the first concrete evidence that T2V models leak substantial membership information through both sparse and temporal memorization, establishing a foundation for auditing video generation systems and motivating the development of new defenses. Code is available at: https://zenodo.org/records/17972831.
- Abstract(参考訳): 大規模なWebスケールデータセットに基づいてトレーニングされた強力なText-to-Video(T2V)モデルの拡散は、著作権やプライバシ違反に対する緊急の懸念を提起する。
メンバーシップ推論攻撃(MIA)は、そのようなリスクを監査するための原則化されたツールを提供するが、既存の技術(画像やテキストなどの静的データ用に設計された)は、ビデオ生成の時空間的複雑さを捉えることができない。
特に、キーフレームにおける記憶信号の空間性や、確率的時間力学によってもたらされる不安定性を見落としている。
本稿では,MIAのT2Vモデルに対する最初の系統的研究を行い,2つの相補的信号によるスパース時間記憶を探索する新しいフレームワークVidLeaksを提案する。
1)SRF(Spatial Reconstruction Fidelity)は、Top-K類似性を用いて、疎記憶鍵フレームからの空間記憶信号を増幅し、
2) 時間的生成安定性(TGS)は,複数のクエリ間のセマンティック一貫性を測定し,時間的リークを捉える。
VidLeaksは、教師付き、参照ベース、クエリオンリーの3つの段階的に制限されたブラックボックス設定で評価する。
VidLeaksはAnimateDiffで82.92%、InstructVideoで97.01%を達成し、厳密なクエリのみの環境でも、現実的で悪用可能なプライバシーリスクを生じさせる。
我々の研究は、T2Vモデルがスパースと時間記憶の両方を通じて実質的なメンバーシップ情報を漏らすという最初の具体的な証拠を提供し、ビデオ生成システムの監査と新たな防衛の動機付けの基盤を確立した。
コードは、https://zenodo.org/records/17972831.comで入手できる。
関連論文リスト
- Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence [70.2803680525165]
我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。
このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。
V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
論文 参考訳(メタデータ) (2025-10-23T14:05:56Z) - BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation [37.055665794706336]
テキスト・ツー・ビデオ(T2V)生成モデルは急速に進歩し、エンターテイメント、教育、マーケティングといった分野に広く応用されている。
我々は、T2V生成タスクにおいて、生成されたビデオはテキストプロンプトに明示的に指定されていないかなりの冗長な情報を含むことが多いことを観察する。
我々は、T2V生成に適した最初のバックドアアタックフレームワークであるBadVideoを紹介した。
論文 参考訳(メタデータ) (2025-04-23T17:34:48Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - When the Future Becomes the Past: Taming Temporal Correspondence for Self-supervised Video Representation Learning [80.09819072780193]
ビデオ表現学習における時間対応を利用した自己教師型フレームワーク(T-CoRe)を提案する。
T-CoReの実験は、複数の下流タスクに対して一貫して優れた性能を示し、ビデオ表現学習の有効性を実証している。
論文 参考訳(メタデータ) (2025-03-19T10:50:03Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。