論文の概要: WaTeRFlow: Watermark Temporal Robustness via Flow Consistency
- arxiv url: http://arxiv.org/abs/2512.19048v1
- Date: Mon, 22 Dec 2025 05:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.630638
- Title: WaTeRFlow: Watermark Temporal Robustness via Flow Consistency
- Title(参考訳): WaTeRFlow:フロー一貫性による透かし時間ロバスト性
- Authors: Utae Jeong, Sumin In, Hyunju Ryu, Jaewan Choi, Feng Yang, Jongheon Jeong, Seungryong Kim, Sangpil Kim,
- Abstract要約: We present WaTeRFlow, a framework designed for robustness under I2V。
エンコーダデコーダは、トレーニング中に命令駆動の編集と高速なビデオ拡散プロキシを通じて、現実的な歪みに晒される。
代表的I2Vモデルに対する実験では、フレームから正確なウォーターマーク回復を示し、フレーム単位の精度とレジリエンスが向上した。
- 参考スコア(独自算出の注目度): 46.206343565195375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image watermarking supports authenticity and provenance, yet many schemes are still easy to bypass with various distortions and powerful generative edits. Deep learning-based watermarking has improved robustness to diffusion-based image editing, but a gap remains when a watermarked image is converted to video by image-to-video (I2V), in which per-frame watermark detection weakens. I2V has quickly advanced from short, jittery clips to multi-second, temporally coherent scenes, and it now serves not only content creation but also world-modeling and simulation workflows, making cross-modal watermark recovery crucial. We present WaTeRFlow, a framework tailored for robustness under I2V. It consists of (i) FUSE (Flow-guided Unified Synthesis Engine), which exposes the encoder-decoder to realistic distortions via instruction-driven edits and a fast video diffusion proxy during training, (ii) optical-flow warping with a Temporal Consistency Loss (TCL) that stabilizes per-frame predictions, and (iii) a semantic preservation loss that maintains the conditioning signal. Experiments across representative I2V models show accurate watermark recovery from frames, with higher first-frame and per-frame bit accuracy and resilience when various distortions are applied before or after video generation.
- Abstract(参考訳): 画像透かしは、信頼性と証明をサポートするが、多くのスキームは、様々な歪みや強力な生成編集を回避し易い。
深層学習に基づく透かしは拡散に基づく画像編集の堅牢性を改善したが,フレームごとの透かし検出が弱まる画像(I2V)によって透かし画像がビデオに変換された場合,ギャップは残る。
I2Vは、短い、ジッタリなクリップから、複数秒間、時間的にコヒーレントなシーンへと急速に進歩し、コンテンツ作成だけでなく、世界モデリングやシミュレーションのワークフローも機能し、クロスモーダルなウォーターマークの復元が不可欠になった。
We present WaTeRFlow, a framework designed for robustness under I2V。
構成
(i)FUSE(Flow-guided Unified Synthesis Engine)は、訓練中、命令駆動編集と高速ビデオ拡散プロキシを通じて、エンコーダデコーダをリアルな歪みに露呈する。
(II)フレーム単位の予測を安定化する時間整合損失(TCL)を用いた光流整流
三 条件信号を保持する意味保存損失
代表的I2Vモデルによる実験では、フレームから正確な透かしを復元し、ビデオ生成前後に様々な歪みが適用される場合、フレーム当たりの1フレーム精度とフレームあたりのビット精度とレジリエンスが向上する。
関連論文リスト
- SPDMark: Selective Parameter Displacement for Robust Video Watermarking [30.398519705830264]
本研究ではSPDMarkと呼ばれる次世代ビデオ透かしの新しいフレームワークを紹介する。
ウォーターマークは生成モデル内のパラメータのサブセットを変更することで生成されたビデオに埋め込まれる。
テキスト・ツー・ビデオ生成モデルと画像・ビデオ生成モデルの評価は、SPDMarkが認識不能な透かしを生成する能力を示している。
論文 参考訳(メタデータ) (2025-12-12T23:35:13Z) - VTinker: Guided Flow Upsampling and Texture Mapping for High-Resolution Video Frame Interpolation [55.93266219195357]
本稿では,ガイドフローアップサンプリング (GFU) とテクスチャマッピング (Texture Mapping) の2つのコアコンポーネントからなるビデオフレーム補間 (VFI) パイプライン VTinker を提案する。
本研究では,ガイドフローアップサンプリング (GFU) とテクスチャマッピング (Texture Mapping) の2つのコアコンポーネントからなる新しいVFIパイプラインであるVTinkerを提案する。
論文 参考訳(メタデータ) (2025-11-20T07:30:16Z) - I2VWM: Robust Watermarking for Image to Video Generation [41.34965301146522]
I2VWMは、時間とともに透かしの堅牢性を高めるために設計されたクロスモーダルな透かしフレームワークである。
オープンソースのI2Vモデルと商用のI2Vモデルの両方の実験では、I2VWMは非受容性を維持しながらロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-09-22T13:37:37Z) - WaterFlow: Learning Fast & Robust Watermarks using Stable Diffusion [46.10882190865747]
WaterFlowは、学習した潜伏依存の透かしに基づいて、高忠実度視覚透かしのための高速かつ極めて堅牢なアプローチである。
WaterFlowは、一般的な堅牢性に対して最先端のパフォーマンスを示し、難しい組み合わせ攻撃に対して効果的に防御できる最初の方法である。
論文 参考訳(メタデータ) (2025-04-15T23:27:52Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。