論文の概要: Video Seal: Open and Efficient Video Watermarking
- arxiv url: http://arxiv.org/abs/2412.09492v1
- Date: Thu, 12 Dec 2024 17:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 17:02:08.331628
- Title: Video Seal: Open and Efficient Video Watermarking
- Title(参考訳): Video Seal: オープンで効率的なビデオ透かし
- Authors: Pierre Fernandez, Hady Elsahar, I. Zeki Yalniz, Alexandre Mourachko,
- Abstract要約: ビデオ透かしは、認識不能な信号をビデオに埋め込むことによって、課題に対処する。
Video Sealは、ニューラルビデオ透かしのための包括的なフレームワークであり、競合するオープンソースモデルである。
提案手法の有効性を, 速度, 不受容性, 頑健性の観点から実験的に検証した。
- 参考スコア(独自算出の注目度): 47.40833588157406
- License:
- Abstract: The proliferation of AI-generated content and sophisticated video editing tools has made it both important and challenging to moderate digital platforms. Video watermarking addresses these challenges by embedding imperceptible signals into videos, allowing for identification. However, the rare open tools and methods often fall short on efficiency, robustness, and flexibility. To reduce these gaps, this paper introduces Video Seal, a comprehensive framework for neural video watermarking and a competitive open-sourced model. Our approach jointly trains an embedder and an extractor, while ensuring the watermark robustness by applying transformations in-between, e.g., video codecs. This training is multistage and includes image pre-training, hybrid post-training and extractor fine-tuning. We also introduce temporal watermark propagation, a technique to convert any image watermarking model to an efficient video watermarking model without the need to watermark every high-resolution frame. We present experimental results demonstrating the effectiveness of the approach in terms of speed, imperceptibility, and robustness. Video Seal achieves higher robustness compared to strong baselines especially under challenging distortions combining geometric transformations and video compression. Additionally, we provide new insights such as the impact of video compression during training, and how to compare methods operating on different payloads. Contributions in this work - including the codebase, models, and a public demo - are open-sourced under permissive licenses to foster further research and development in the field.
- Abstract(参考訳): AIが生成するコンテンツや高度なビデオ編集ツールの普及は、デジタルプラットフォームを適度に扱うことの重要性と難しさを両立させた。
ビデオ透かしは、認識不能な信号をビデオに埋め込むことによって、これらの課題に対処する。
しかしながら、まれなオープンツールやメソッドは、効率性、堅牢性、柔軟性に欠けることが多い。
これらのギャップを軽減するために,ニューラルビデオ透かしのための包括的なフレームワークであるVideo Sealと,競合するオープンソースモデルを紹介する。
提案手法は,ビデオコーデックの変換を施すことにより,透かしの堅牢性を確保しつつ,埋め込み器と抽出器を共同で訓練するものである。
この訓練は多段階的であり、画像前訓練、ハイブリッド後訓練、抽出器の微調整を含む。
また,任意の画像透かしモデルを高精細フレームごとに透かしを行うことなく,効率的な映像透かしモデルに変換する手法である時間的透かし伝搬も導入する。
提案手法の有効性を, 速度, 不受容性, 頑健性の観点から実験的に検証した。
ビデオシールは、特に幾何変換とビデオ圧縮を組み合わせた困難な歪みの下で、強いベースラインよりも高いロバスト性を達成する。
さらに、トレーニング中のビデオ圧縮の影響や、異なるペイロード上で動作している方法を比較する方法など、新たな洞察を提供する。
コードベース、モデル、パブリックデモを含むこの作業へのコントリビューションは、この分野におけるさらなる研究と開発を促進するために、寛容なライセンスの下でオープンソース化されている。
関連論文リスト
- VideoShield: Regulating Diffusion-based Video Generation Models via Watermarking [27.345134138673945]
VideoShieldはビデオ生成モデルのための新しい透かしフレームワークである。
ビデオ生成中に直接透かしを埋め込んで、追加のトレーニングを不要にする。
本手法では,透かしビットをテンプレートビットにマッピングし,透かしを発生させる。
論文 参考訳(メタデータ) (2025-01-24T02:57:09Z) - FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors [64.54220123913154]
本稿では,画像から映像への効率のよい生成問題としてFramePainterを紹介した。
軽量のスパース制御エンコーダのみを使用して編集信号を注入する。
従来の最先端の手法をはるかに少ないトレーニングデータで上回ります。
論文 参考訳(メタデータ) (2025-01-14T16:09:16Z) - LVMark: Robust Watermark for latent video diffusion models [5.310978296852323]
本稿では,ビデオ拡散モデルに透かしを埋め込むLVMarkという新しい透かし手法を提案する。
LVMarkの重要なコンポーネントは、ビデオ拡散モデルにウォーターマークメッセージを効率的に埋め込む選択的な重み変調戦略である。
本手法は,ビデオ生成モデルにおけるオーナシップ保護の有効性を高めるための貴重なツールとして,ビデオ生成モデル透かしの可能性を強調した最初の試みである。
論文 参考訳(メタデータ) (2024-12-12T09:57:20Z) - Robust Watermarking Using Generative Priors Against Image Editing: From Benchmarking to Advances [13.746887960091112]
大規模なテキスト・ツー・イメージモデルは、編集中に埋め込まれた透かしを歪め、著作権保護に挑戦する。
We introduced W-Bench, a first comprehensive benchmark designed to evaluate the robustness of watermarking method。
本稿では,様々な画像編集技術に対するロバスト性を大幅に向上させる透かし手法であるVINEを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:28:32Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - VJT: A Video Transformer on Joint Tasks of Deblurring, Low-light
Enhancement and Denoising [45.349350685858276]
ビデオ復元作業は、低品質な観察から高品質な映像を復元することを目的としている。
ビデオはしばしば、ぼやけ、低照度、ノイズなど、さまざまな種類の劣化に直面します。
本稿では,映像の劣化,低照度化,雑音化といった共同作業に対して,効率的なエンドツーエンドビデオトランスフォーマ手法を提案する。
論文 参考訳(メタデータ) (2024-01-26T10:27:56Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing
with Diffusion Models [19.792535444735957]
RAVEは、事前訓練されたテキスト-画像拡散モデルを活用するゼロショットビデオ編集法である。
オリジナルモーションとセマンティックな構造を保ちながら高品質なビデオを生成する。
RAVEは、局所的な属性修正から形状変換まで、幅広い編集が可能である。
論文 参考訳(メタデータ) (2023-12-07T18:43:45Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。