論文の概要: Video Signature: In-generation Watermarking for Latent Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.00652v3
- Date: Mon, 15 Sep 2025 17:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.194733
- Title: Video Signature: In-generation Watermarking for Latent Video Diffusion Models
- Title(参考訳): ビデオシグナチャ:潜時拡散モデルのための次世代透かし
- Authors: Yu Huang, Junhao Chen, Shuliang Liu, Hanqian Li, Qi Zheng, Yi R. Fung, Xuming Hu,
- Abstract要約: ビデオシグナチャ (VID SIG) は、遅延ビデオ拡散モデルのための次世代透かし方式である。
我々は、潜伏型デコーダを部分的に微調整し、PAS(Perturbation-Aware Suppression)が事前に識別し、知覚に敏感な層を凍結する。
実験結果から, VID SIGは透かし抽出, 視覚的品質, 生成効率において, 最高の総合的な性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 42.064769031646904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of Artificial Intelligence Generated Content (AIGC) has led to significant progress in video generation but also raises serious concerns about intellectual property protection and reliable content tracing. Watermarking is a widely adopted solution to this issue, but existing methods for video generation mainly follow a post-generation paradigm, which introduces additional computational overhead and often fails to effectively balance the trade-off between video quality and watermark extraction. To address these issues, we propose Video Signature (VIDSIG), an in-generation watermarking method for latent video diffusion models, which enables implicit and adaptive watermark integration during generation. Specifically, we achieve this by partially fine-tuning the latent decoder, where Perturbation-Aware Suppression (PAS) pre-identifies and freezes perceptually sensitive layers to preserve visual quality. Beyond spatial fidelity, we further enhance temporal consistency by introducing a lightweight Temporal Alignment module that guides the decoder to generate coherent frame sequences during fine-tuning. Experimental results show that VIDSIG achieves the best overall performance in watermark extraction, visual quality, and generation efficiency. It also demonstrates strong robustness against both spatial and temporal tampering, highlighting its practicality in real-world scenarios. Our code is available at \href{https://github.com/hardenyu21/Video-Signature}{here}
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)の急速な発展は、ビデオ生成に大きな進歩をもたらしたが、知的財産保護と信頼性のあるコンテンツトレースに対する深刻な懸念も引き起こしている。
ウォーターマーキングは、この問題に対して広く採用されているソリューションであるが、既存のビデオ生成手法は、主にポストジェネレーションのパラダイムに従っており、さらなる計算オーバーヘッドを導入し、ビデオ品質とウォーターマーク抽出のトレードオフを効果的にバランスさせることに失敗することが多い。
これらの問題に対処するために,ビデオシグナチャ (VIDSIG) を提案する。
具体的には,摂動認識抑圧(PAS)が視覚的品質を維持するために知覚に敏感な層を事前に識別し凍結する潜時デコーダを部分的に微調整することでこれを実現できる。
空間的忠実性以外にも、微調整中にコヒーレントなフレームシーケンスを生成するためにデコーダをガイドする軽量なテンポラルアライメントモジュールを導入することで、時間的整合性をさらに向上する。
実験結果から,VIDSIGは透かし抽出,視覚的品質,生成効率において,最高の総合的な性能を発揮することがわかった。
また、空間的および時間的改ざんに対して強い堅牢性を示し、現実のシナリオにおけるその実用性を強調している。
私たちのコードは \href{https://github.com/hardenyu21/Video-Signature}{here} で利用可能です。
関連論文リスト
- Latent-Mark: An Audio Watermark Robust to Neural Resynthesis [62.09761127079914]
Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。
私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。
我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
論文 参考訳(メタデータ) (2026-03-05T15:51:09Z) - SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion [11.934813439152528]
目に見えない透かしは、AIが生成した動画を保護し、有害なコンテンツを追跡するための重要な技術であり、AIの安全性において重要な役割を果たす。
既存の世代のアプローチは盲目ではなく、すべてのメッセージキーペアを維持し、抽出中にテンプレートベースのマッチングを実行する必要がある。
ビデオ拡散のためのブラインド抽出機能を備えたスケーラブルなインジェネレーション・ウォーターマーキングフレームワークであるSIGMarkを提案する。
論文 参考訳(メタデータ) (2026-03-03T11:33:44Z) - SKeDA: A Generative Watermarking Framework for Text-to-video Diffusion Models [40.540302276054376]
テキスト・ビデオ拡散モデルに適した生成型透かしフレームワークを提案する。
SKeDAは2つのコンポーネントから構成される: 1) シャッフルキーベースの分散保存サンプリング(SKe)は、透かし暗号化のために単一のベース擬似ランダムバイナリシーケンスを使用し、置換によってフレームレベルの暗号化シーケンスを導出する。
大規模な実験により、SKeDAは高い映像生成品質と透かしの堅牢性を保っていることが示された。
論文 参考訳(メタデータ) (2026-02-27T06:18:03Z) - AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - DINVMark: A Deep Invertible Network for Video Watermarking [17.63051709541545]
本稿では,Deep Invertible Network for Video Watermarking (DINVMark)を紹介し,HEVC圧縮をシミュレートするノイズ層を設計する。
その結果,提案手法は透かしの堅牢性を著しく向上し,映像品質を保ち,透かしの埋め込み能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-09-22T07:08:20Z) - TAG-WM: Tamper-Aware Generative Image Watermarking via Diffusion Inversion Sensitivity [68.95168727940973]
Tamper-Aware Generative Image WaterMarking(TAG-WM)。
本稿では,TAG-WMと命名されたタンパ認識画像ウォーターマーキング手法を提案する。
論文 参考訳(メタデータ) (2025-06-30T03:14:07Z) - Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking [53.434260110195446]
Safe-Soraは、ビデオ生成プロセスに直接グラフィカルな透かしを直接埋め込む最初のフレームワークである。
適応型局所時間走査戦略を用いた3次元ウェーブレット変換拡張型Mambaアーキテクチャを開発した。
ビデオの品質、透かしの忠実さ、堅牢性の観点から、Safe-Soraは最先端のパフォーマンスを実証した。
論文 参考訳(メタデータ) (2025-05-19T03:31:31Z) - VIDSTAMP: A Temporally-Aware Watermark for Ownership and Integrity in Video Diffusion Models [32.0365189539138]
VIDSTAMPは、時間的に認識されたビデオ拡散モデルの潜在空間に直接メッセージを埋め込む透かしフレームワークである。
提案手法は, 追加の推論コストを課さず, 従来の手法よりも知覚品質がよい。
論文 参考訳(メタデータ) (2025-05-02T17:35:03Z) - GenPTW: In-Generation Image Watermarking for Provenance Tracing and Tamper Localization [32.843425702098116]
GenPTWは潜在拡散モデル(LDM)のためのインジェネレーション画像透かしフレームワークである
画像生成フェーズ中に構造化された透かし信号を埋め込んで、統一されたプロファイランストレースとタンパーローカライゼーションを可能にする。
実験により、GenPTWは画像の忠実度、透かし抽出精度、改ざん性能において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-28T08:21:39Z) - Gaussian Shading++: Rethinking the Realistic Deployment Challenge of Performance-Lossless Image Watermark for Diffusion Models [66.54457339638004]
著作権保護と不適切なコンテンツ生成は、拡散モデルの実装に課題をもたらす。
本研究では,実世界の展開に適した拡散モデル透かし手法を提案する。
Gaussian Shading++はパフォーマンスのロスレス性を維持するだけでなく、ロバスト性の観点からも既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-04-21T11:18:16Z) - RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。
近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。
我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文 参考訳(メタデータ) (2025-01-15T18:20:37Z) - Video Seal: Open and Efficient Video Watermarking [47.40833588157406]
ビデオ透かしは、認識不能な信号をビデオに埋め込むことによって、課題に対処する。
Video Sealは、ニューラルビデオ透かしのための包括的なフレームワークであり、競合するオープンソースモデルである。
提案手法の有効性を, 速度, 不受容性, 頑健性の観点から実験的に検証した。
論文 参考訳(メタデータ) (2024-12-12T17:41:49Z) - LVMark: Robust Watermark for Latent Video Diffusion Models [13.85241328100336]
ビデオ拡散モデルのための新しい透かし手法であるLVMarkを紹介する。
本稿では,隣接するフレーム間の一貫性を学習し,生成ビデオに適した新しい透かしデコーダを提案する。
拡散モデルの透かしデコーダと潜時デコーダの両方を最適化し、視覚的品質とビット精度のトレードオフを効果的にバランスさせる。
論文 参考訳(メタデータ) (2024-12-12T09:57:20Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。