論文の概要: V2A-Mark: Versatile Deep Visual-Audio Watermarking for Manipulation Localization and Copyright Protection
- arxiv url: http://arxiv.org/abs/2404.16824v1
- Date: Thu, 25 Apr 2024 17:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 12:51:20.183633
- Title: V2A-Mark: Versatile Deep Visual-Audio Watermarking for Manipulation Localization and Copyright Protection
- Title(参考訳): V2A-Mark: 操作のローカライゼーションと著作権保護のためのVersatile Deep Visual-Audio Watermarking
- Authors: Xuanyu Zhang, Youmin Xu, Runyi Li, Jiwen Yu, Weiqi Li, Zhipei Xu, Jian Zhang,
- Abstract要約: V2A-Markは、現在のビデオ改ざん法医学の限界に対処するために提案されている。
本手法は,オリジナルビデオフレームとオーディオに,視覚的・音響的ローカライゼーションの透かしと著作権の透かしを埋め込むことができる。
V2A-Markの有効性は、ビジュアル・オーディオ・タンパリング・データセット上で検証されている。
- 参考スコア(独自算出の注目度): 17.201352599892665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-generated video has revolutionized short video production, filmmaking, and personalized media, making video local editing an essential tool. However, this progress also blurs the line between reality and fiction, posing challenges in multimedia forensics. To solve this urgent issue, V2A-Mark is proposed to address the limitations of current video tampering forensics, such as poor generalizability, singular function, and single modality focus. Combining the fragility of video-into-video steganography with deep robust watermarking, our method can embed invisible visual-audio localization watermarks and copyright watermarks into the original video frames and audio, enabling precise manipulation localization and copyright protection. We also design a temporal alignment and fusion module and degradation prompt learning to enhance the localization accuracy and decoding robustness. Meanwhile, we introduce a sample-level audio localization method and a cross-modal copyright extraction mechanism to couple the information of audio and video frames. The effectiveness of V2A-Mark has been verified on a visual-audio tampering dataset, emphasizing its superiority in localization precision and copyright accuracy, crucial for the sustainable development of video editing in the AIGC video era.
- Abstract(参考訳): AIによって生成されたビデオは、短いビデオ制作、映画製作、パーソナライズされたメディアに革命をもたらし、ビデオローカル編集が必須のツールとなった。
しかし、この進歩は現実とフィクションの境界を曖昧にし、マルチメディアの法医学における課題を浮き彫りにしている。
この緊急問題を解決するために、V2A-Markは、一般化性、特異関数、単一モダリティ焦点などの現在のビデオ改ざん法医学の限界に対処するために提案されている。
ビデオ・イン・ビデオ・ステガノグラフィーの脆弱さと深いロバストな透かしとを組み合わせることで,オリジナルビデオフレームやオーディオに視覚・オーディオのローカライズ・透かしや著作権の透かしを埋め込むことが可能となり,正確な操作のローカライゼーションと著作権保護が可能となった。
また、局所化精度を高め、ロバスト性を復号化するために、時間的アライメントと融合モジュールと劣化の促進学習を設計する。
一方,サンプルレベルの音声ローカライズ手法と,オーディオフレームとビデオフレームの情報とを結合するクロスモーダル著作権抽出機構を導入する。
V2A-Markの有効性は、AIGCビデオ時代におけるビデオ編集の持続可能な発展に欠かせない、ローカライズ精度と著作権の精度において、その優位性を強調して、視覚オーディオの改ざんデータセット上で検証されている。
関連論文リスト
- XAttnMark: Learning Robust Audio Watermarking with Cross-Attention [15.216472445154064]
クロスアテンションロバスト音響透かし(XAttnMark)
本稿では,ジェネレータと検出器間の部分パラメータ共有を利用してギャップを埋めるクロスアテンションロバスト音響透かし(XAttnMark)を提案する。
本研究では, 聴覚マスキング効果の微粒化を捉え, 透かしの受容性を向上する心理音響整列型時間周波数マスキング障害を提案する。
論文 参考訳(メタデータ) (2025-02-06T17:15:08Z) - VideoShield: Regulating Diffusion-based Video Generation Models via Watermarking [27.345134138673945]
VideoShieldはビデオ生成モデルのための新しい透かしフレームワークである。
ビデオ生成中に直接透かしを埋め込んで、追加のトレーニングを不要にする。
本手法では,透かしビットをテンプレートビットにマッピングし,透かしを発生させる。
論文 参考訳(メタデータ) (2025-01-24T02:57:09Z) - Video Seal: Open and Efficient Video Watermarking [47.40833588157406]
ビデオ透かしは、認識不能な信号をビデオに埋め込むことによって、課題に対処する。
Video Sealは、ニューラルビデオ透かしのための包括的なフレームワークであり、競合するオープンソースモデルである。
提案手法の有効性を, 速度, 不受容性, 頑健性の観点から実験的に検証した。
論文 参考訳(メタデータ) (2024-12-12T17:41:49Z) - LVMark: Robust Watermark for latent video diffusion models [5.310978296852323]
本稿では,ビデオ拡散モデルに透かしを埋め込むLVMarkという新しい透かし手法を提案する。
LVMarkの重要なコンポーネントは、ビデオ拡散モデルにウォーターマークメッセージを効率的に埋め込む選択的な重み変調戦略である。
本手法は,ビデオ生成モデルにおけるオーナシップ保護の有効性を高めるための貴重なツールとして,ビデオ生成モデル透かしの可能性を強調した最初の試みである。
論文 参考訳(メタデータ) (2024-12-12T09:57:20Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。
Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文 参考訳(メタデータ) (2023-03-08T17:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。