論文の概要: VIDSTAMP: A Temporally-Aware Watermark for Ownership and Integrity in Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.01406v1
- Date: Fri, 02 May 2025 17:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:20.09578
- Title: VIDSTAMP: A Temporally-Aware Watermark for Ownership and Integrity in Video Diffusion Models
- Title(参考訳): VIDSTAMP:ビデオ拡散モデルにおけるオーナーシップと統合性のための一時認識型透かし
- Authors: Mohammadreza Teymoorianfard, Shiqing Ma, Amir Houmansadr,
- Abstract要約: VIDSTAMPは、時間的に認識されたビデオ拡散モデルの潜在空間に直接メッセージを埋め込む透かしフレームワークである。
提案手法は, 追加の推論コストを課さず, 従来の手法よりも知覚品質がよい。
- 参考スコア(独自算出の注目度): 32.0365189539138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid rise of video diffusion models has enabled the generation of highly realistic and temporally coherent videos, raising critical concerns about content authenticity, provenance, and misuse. Existing watermarking approaches, whether passive, post-hoc, or adapted from image-based techniques, often struggle to withstand video-specific manipulations such as frame insertion, dropping, or reordering, and typically degrade visual quality. In this work, we introduce VIDSTAMP, a watermarking framework that embeds per-frame or per-segment messages directly into the latent space of temporally-aware video diffusion models. By fine-tuning the model's decoder through a two-stage pipeline, first on static image datasets to promote spatial message separation, and then on synthesized video sequences to restore temporal consistency, VIDSTAMP learns to embed high-capacity, flexible watermarks with minimal perceptual impact. Leveraging architectural components such as 3D convolutions and temporal attention, our method imposes no additional inference cost and offers better perceptual quality than prior methods, while maintaining comparable robustness against common distortions and tampering. VIDSTAMP embeds 768 bits per video (48 bits per frame) with a bit accuracy of 95.0%, achieves a log P-value of -166.65 (lower is better), and maintains a video quality score of 0.836, comparable to unwatermarked outputs (0.838) and surpassing prior methods in capacity-quality tradeoffs. Code: Code: \url{https://github.com/SPIN-UMass/VidStamp}
- Abstract(参考訳): ビデオ拡散モデルの急速な発展は、高度に現実的で時間的に整合したビデオの生成を可能にし、コンテンツの信頼性、証明、誤用に関する重要な懸念を提起している。
既存のウォーターマーキングアプローチは、受動的、ポストホック、あるいはイメージベースの技法に適応するが、しばしばフレーム挿入、ドロップ、リオーダーといったビデオ固有の操作に耐えられず、視覚的品質を低下させる。
本稿では,時間的に認識されたビデオ拡散モデルの潜在空間に直接,フレーム単位あるいはセグメント単位のメッセージを埋め込む透かしフレームワークであるVIDSTAMPを紹介する。
モデルのデコーダを2段階のパイプラインで微調整し、まず静的なイメージデータセットを使って空間的メッセージ分離を促進し、次に合成されたビデオシーケンスで時間的一貫性を回復することで、VIDSTAMPは、知覚的影響を最小限に抑えた高容量で柔軟な透かしを埋めることを学ぶ。
3D畳み込みや時間的注意などのアーキテクチャコンポーネントを活用することで,提案手法では推論コストが増大せず,従来の手法よりも知覚品質が向上すると同時に,一般的な歪みや改ざんに対するロバスト性も維持できる。
VIDSTAMPは、ビデオあたり768ビット(フレームあたり48ビット)を95.0%の精度で埋め込み、ログP値が-166.65(より低い)に達し、ビデオ品質スコアは0.836であり、非透かし出力(0.838)に匹敵する。
コード: Code: \url{https://github.com/SPIN-UMass/VidStamp}
関連論文リスト
- VideoPASTA: 7K Preference Pairs That Matter for Video-LLM Alignment [0.6854849895338531]
ビデオ言語モデル(Video-LLMs)は、ビデオコンテンツを理解するのに優れているが、空間的関係、時間的順序付け、フレーム間の連続性に苦慮している。
対象の選好最適化を通じてビデオLLMを強化するフレームワークであるVideoPASTAを紹介する。
論文 参考訳(メタデータ) (2025-04-18T22:28:03Z) - Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models [26.866184981409607]
本稿では,計算オーバーヘッドを大幅に削減しつつ,競争性能を向上するビデオ言語理解のための効率的なエンコーダレス手法を提案する。
本稿では,ビデオ入力を直接処理する時空間アライメントブロック(STAB)を提案する。
本モデルでは,標準ベンチマークによるオープンエンドビデオ質問応答に対して,エンコーダに基づくアプローチに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:59:56Z) - Video Seal: Open and Efficient Video Watermarking [47.40833588157406]
ビデオ透かしは、認識不能な信号をビデオに埋め込むことによって、課題に対処する。
Video Sealは、ニューラルビデオ透かしのための包括的なフレームワークであり、競合するオープンソースモデルである。
提案手法の有効性を, 速度, 不受容性, 頑健性の観点から実験的に検証した。
論文 参考訳(メタデータ) (2024-12-12T17:41:49Z) - LVMark: Robust Watermark for Latent Video Diffusion Models [13.85241328100336]
ビデオ拡散モデルのための新しい透かし手法であるLVMarkを紹介する。
本稿では,隣接するフレーム間の一貫性を学習し,生成ビデオに適した新しい透かしデコーダを提案する。
拡散モデルの透かしデコーダと潜時デコーダの両方を最適化し、視覚的品質とビット精度のトレードオフを効果的にバランスさせる。
論文 参考訳(メタデータ) (2024-12-12T09:57:20Z) - Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。
時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文 参考訳(メタデータ) (2024-11-26T09:28:32Z) - Blurry Video Compression: A Trade-off between Visual Enhancement and
Data Compression [65.8148169700705]
既存のビデオ圧縮(VC)手法は主に、ビデオ内の連続フレーム間の空間的および時間的冗長性を減らすことを目的としている。
これまでの研究は、インスタント(既知の)露光時間やシャッタースピードなどの特定の設定で取得されたビデオに対して、顕著な成果を上げてきた。
本研究では,シーン内のカメラ設定やダイナミックスによって,所定の映像がぼやけてしまうという一般的なシナリオにおいて,VCの問題に取り組む。
論文 参考訳(メタデータ) (2023-11-08T02:17:54Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。