論文の概要: Video Signature: In-generation Watermarking for Latent Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.00652v1
- Date: Sat, 31 May 2025 17:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.391521
- Title: Video Signature: In-generation Watermarking for Latent Video Diffusion Models
- Title(参考訳): ビデオシグナチャ:潜時拡散モデルのための次世代透かし
- Authors: Yu Huang, Junhao Chen, Qi Zheng, Hanqian Li, Shuliang Liu, Xuming Hu,
- Abstract要約: ビデオシグナチャ (VID SIG) は、遅延ビデオ拡散モデルのための次世代透かし方式である。
視覚的品質を維持するために、パータベーション・アウェア・抑制(PAS)が知覚に敏感な層を事前に識別し凍結する潜時デコーダを部分的に微調整することでこれを実現できる。
実験結果から, VID SIGは透かし抽出, 視覚的品質, 生成効率において, 最高の総合的な性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 19.648332041264474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of Artificial Intelligence Generated Content (AIGC) has led to significant progress in video generation but also raises serious concerns about intellectual property protection and reliable content tracing. Watermarking is a widely adopted solution to this issue, but existing methods for video generation mainly follow a post-generation paradigm, which introduces additional computational overhead and often fails to effectively balance the trade-off between video quality and watermark extraction. To address these issues, we propose Video Signature (VIDSIG), an in-generation watermarking method for latent video diffusion models, which enables implicit and adaptive watermark integration during generation. Specifically, we achieve this by partially fine-tuning the latent decoder, where Perturbation-Aware Suppression (PAS) pre-identifies and freezes perceptually sensitive layers to preserve visual quality. Beyond spatial fidelity, we further enhance temporal consistency by introducing a lightweight Temporal Alignment module that guides the decoder to generate coherent frame sequences during fine-tuning. Experimental results show that VIDSIG achieves the best overall performance in watermark extraction, visual quality, and generation efficiency. It also demonstrates strong robustness against both spatial and temporal tampering, highlighting its practicality in real-world scenarios.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)の急速な発展は、ビデオ生成に大きな進歩をもたらしたが、知的財産保護と信頼性のあるコンテンツトレースに対する深刻な懸念も引き起こしている。
ウォーターマーキングは、この問題に対して広く採用されているソリューションであるが、既存のビデオ生成手法は、主にポストジェネレーションのパラダイムに従っており、さらなる計算オーバーヘッドを導入し、ビデオ品質とウォーターマーク抽出のトレードオフを効果的にバランスさせることに失敗することが多い。
これらの問題に対処するために,ビデオシグナチャ (VIDSIG) を提案する。
具体的には,摂動認識抑圧(PAS)が視覚的品質を維持するために知覚に敏感な層を事前に識別し凍結する潜時デコーダを部分的に微調整することでこれを実現できる。
空間的忠実性以外にも、微調整中にコヒーレントなフレームシーケンスを生成するためにデコーダをガイドする軽量なテンポラルアライメントモジュールを導入することで、時間的整合性をさらに向上する。
実験結果から,VIDSIGは透かし抽出,視覚的品質,生成効率において,最高の総合的な性能を発揮することがわかった。
また、空間的および時間的改ざんに対して強い堅牢性を示し、現実のシナリオにおけるその実用性を強調している。
関連論文リスト
- Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking [53.434260110195446]
Safe-Soraは、ビデオ生成プロセスに直接グラフィカルな透かしを直接埋め込む最初のフレームワークである。
適応型局所時間走査戦略を用いた3次元ウェーブレット変換拡張型Mambaアーキテクチャを開発した。
ビデオの品質、透かしの忠実さ、堅牢性の観点から、Safe-Soraは最先端のパフォーマンスを実証した。
論文 参考訳(メタデータ) (2025-05-19T03:31:31Z) - VIDSTAMP: A Temporally-Aware Watermark for Ownership and Integrity in Video Diffusion Models [32.0365189539138]
VIDSTAMPは、時間的に認識されたビデオ拡散モデルの潜在空間に直接メッセージを埋め込む透かしフレームワークである。
提案手法は, 追加の推論コストを課さず, 従来の手法よりも知覚品質がよい。
論文 参考訳(メタデータ) (2025-05-02T17:35:03Z) - Gaussian Shading++: Rethinking the Realistic Deployment Challenge of Performance-Lossless Image Watermark for Diffusion Models [66.54457339638004]
著作権保護と不適切なコンテンツ生成は、拡散モデルの実装に課題をもたらす。
本研究では,実世界の展開に適した拡散モデル透かし手法を提案する。
Gaussian Shading++はパフォーマンスのロスレス性を維持するだけでなく、ロバスト性の観点からも既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-04-21T11:18:16Z) - Video Seal: Open and Efficient Video Watermarking [47.40833588157406]
ビデオ透かしは、認識不能な信号をビデオに埋め込むことによって、課題に対処する。
Video Sealは、ニューラルビデオ透かしのための包括的なフレームワークであり、競合するオープンソースモデルである。
提案手法の有効性を, 速度, 不受容性, 頑健性の観点から実験的に検証した。
論文 参考訳(メタデータ) (2024-12-12T17:41:49Z) - LVMark: Robust Watermark for Latent Video Diffusion Models [13.85241328100336]
ビデオ拡散モデルのための新しい透かし手法であるLVMarkを紹介する。
本稿では,隣接するフレーム間の一貫性を学習し,生成ビデオに適した新しい透かしデコーダを提案する。
拡散モデルの透かしデコーダと潜時デコーダの両方を最適化し、視覚的品質とビット精度のトレードオフを効果的にバランスさせる。
論文 参考訳(メタデータ) (2024-12-12T09:57:20Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。