論文の概要: V2A-Mark: Versatile Deep Visual-Audio Watermarking for Manipulation Localization and Copyright Protection
- arxiv url: http://arxiv.org/abs/2404.16824v4
- Date: Thu, 14 Nov 2024 16:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:10.520295
- Title: V2A-Mark: Versatile Deep Visual-Audio Watermarking for Manipulation Localization and Copyright Protection
- Title(参考訳): V2A-Mark: 操作のローカライゼーションと著作権保護のためのVersatile Deep Visual-Audio Watermarking
- Authors: Xuanyu Zhang, Youmin Xu, Runyi Li, Jiwen Yu, Weiqi Li, Zhipei Xu, Jian Zhang,
- Abstract要約: V2A-Markは、現在のビデオ改ざん法医学の限界に対処するために提案されている。
本手法は,オリジナルビデオフレームとオーディオに,視覚的・音響的ローカライゼーションの透かしと著作権の透かしを埋め込むことができる。
V2A-Markの有効性は、ビジュアル・オーディオ・タンパリング・データセット上で検証されている。
- 参考スコア(独自算出の注目度): 17.201352599892665
- License:
- Abstract: AI-generated video has revolutionized short video production, filmmaking, and personalized media, making video local editing an essential tool. However, this progress also blurs the line between reality and fiction, posing challenges in multimedia forensics. To solve this urgent issue, V2A-Mark is proposed to address the limitations of current video tampering forensics, such as poor generalizability, singular function, and single modality focus. Combining the fragility of video-into-video steganography with deep robust watermarking, our method can embed invisible visual-audio localization watermarks and copyright watermarks into the original video frames and audio, enabling precise manipulation localization and copyright protection. We also design a temporal alignment and fusion module and degradation prompt learning to enhance the localization accuracy and decoding robustness. Meanwhile, we introduce a sample-level audio localization method and a cross-modal copyright extraction mechanism to couple the information of audio and video frames. The effectiveness of V2A-Mark has been verified on a visual-audio tampering dataset, emphasizing its superiority in localization precision and copyright accuracy, crucial for the sustainable development of video editing in the AIGC video era.
- Abstract(参考訳): AIによって生成されたビデオは、短いビデオ制作、映画製作、パーソナライズされたメディアに革命をもたらし、ビデオローカル編集が必須のツールとなった。
しかし、この進歩は現実とフィクションの境界を曖昧にし、マルチメディアの法医学における課題を浮き彫りにしている。
この緊急問題を解決するために、V2A-Markは、一般化性、特異関数、単一モダリティ焦点などの現在のビデオ改ざん法医学の限界に対処するために提案されている。
ビデオ・イン・ビデオ・ステガノグラフィーの脆弱さと深いロバストな透かしとを組み合わせることで,オリジナルビデオフレームやオーディオに視覚・オーディオのローカライズ・透かしや著作権の透かしを埋め込むことが可能となり,正確な操作のローカライゼーションと著作権保護が可能となった。
また、局所化精度を高め、ロバスト性を復号化するために、時間的アライメントと融合モジュールと劣化の促進学習を設計する。
一方,サンプルレベルの音声ローカライズ手法と,オーディオフレームとビデオフレームの情報とを結合するクロスモーダル著作権抽出機構を導入する。
V2A-Markの有効性は、AIGCビデオ時代におけるビデオ編集の持続可能な発展に欠かせない、ローカライズ精度と著作権の精度において、その優位性を強調して、視覚オーディオの改ざんデータセット上で検証されている。
関連論文リスト
- Blended Latent Diffusion under Attention Control for Real-World Video Editing [5.659933808910005]
本稿では,局所的なビデオ編集作業を行うために,画像レベルのブレンド潜在拡散モデルを適用することを提案する。
具体的には、DDIMのインバージョンを利用して、ランダムにノイズのあるものではなく、背景の潜伏者として潜伏者を取得する。
また,拡散段階におけるクロスアテンションマップから導かれる自律マスク製造機構を導入する。
論文 参考訳(メタデータ) (2024-09-05T13:23:52Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。
Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文 参考訳(メタデータ) (2023-03-08T17:53:49Z) - FOCAL: A Forgery Localization Framework based on Video Coding
Self-Consistency [26.834506269499094]
本稿では,ビデオフレーム内における符号化トレースの自己整合性を検証するビデオフォージェリーローカライゼーションフレームワークを提案する。
全体フレームワークは、時間的スプライシングと空間的スプライシングの2つの典型的なフォージェリーシナリオで検証された。
実験結果から,空間スプライシングにおける時間的スプライシングの局所化に関する最先端技術の改善と,空間スプライシングの新たな取組における有望な性能が示された。
論文 参考訳(メタデータ) (2020-08-24T13:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。