Fugu-MT 論文翻訳(概要): V2A-Mark: Versatile Deep Visual-Audio Watermarking for Manipulation Localization and Copyright Protection

論文の概要: V2A-Mark: Versatile Deep Visual-Audio Watermarking for Manipulation Localization and Copyright Protection

arxiv url: http://arxiv.org/abs/2404.16824v3
Date: Sat, 10 Aug 2024 07:09:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 23:17:20.149302
Title: V2A-Mark: Versatile Deep Visual-Audio Watermarking for Manipulation Localization and Copyright Protection
Title（参考訳）: V2A-Mark: 操作のローカライゼーションと著作権保護のためのVersatile Deep Visual-Audio Watermarking
Authors: Xuanyu Zhang, Youmin Xu, Runyi Li, Jiwen Yu, Weiqi Li, Zhipei Xu, Jian Zhang,
Abstract要約: V2A-Markは、現在のビデオ改ざん法医学の限界に対処するために提案されている。本手法は,オリジナルビデオフレームとオーディオに,視覚的・音響的ローカライゼーションの透かしと著作権の透かしを埋め込むことができる。 V2A-Markの有効性は、ビジュアル・オーディオ・タンパリング・データセット上で検証されている。
参考スコア（独自算出の注目度）: 17.201352599892665
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: AI-generated video has revolutionized short video production, filmmaking, and personalized media, making video local editing an essential tool. However, this progress also blurs the line between reality and fiction, posing challenges in multimedia forensics. To solve this urgent issue, V2A-Mark is proposed to address the limitations of current video tampering forensics, such as poor generalizability, singular function, and single modality focus. Combining the fragility of video-into-video steganography with deep robust watermarking, our method can embed invisible visual-audio localization watermarks and copyright watermarks into the original video frames and audio, enabling precise manipulation localization and copyright protection. We also design a temporal alignment and fusion module and degradation prompt learning to enhance the localization accuracy and decoding robustness. Meanwhile, we introduce a sample-level audio localization method and a cross-modal copyright extraction mechanism to couple the information of audio and video frames. The effectiveness of V2A-Mark has been verified on a visual-audio tampering dataset, emphasizing its superiority in localization precision and copyright accuracy, crucial for the sustainable development of video editing in the AIGC video era.
Abstract（参考訳）: AIによって生成されたビデオは、短いビデオ制作、映画製作、パーソナライズされたメディアに革命をもたらし、ビデオローカル編集が必須のツールとなった。しかし、この進歩は現実とフィクションの境界を曖昧にし、マルチメディアの法医学における課題を浮き彫りにしている。この緊急問題を解決するために、V2A-Markは、一般化性、特異関数、単一モダリティ焦点などの現在のビデオ改ざん法医学の限界に対処するために提案されている。ビデオ・イン・ビデオ・ステガノグラフィーの脆弱さと深いロバストな透かしとを組み合わせることで,オリジナルビデオフレームやオーディオに視覚・オーディオのローカライズ・透かしや著作権の透かしを埋め込むことが可能となり,正確な操作のローカライゼーションと著作権保護が可能となった。また、局所化精度を高め、ロバスト性を復号化するために、時間的アライメントと融合モジュールと劣化の促進学習を設計する。一方,サンプルレベルの音声ローカライズ手法と,オーディオフレームとビデオフレームの情報とを結合するクロスモーダル著作権抽出機構を導入する。 V2A-Markの有効性は、AIGCビデオ時代におけるビデオ編集の持続可能な発展に欠かせない、ローカライズ精度と著作権の精度において、その優位性を強調して、視覚オーディオの改ざんデータセット上で検証されている。

関連論文リスト

EditYourself: Audio-Driven Generation and Manipulation of Talking Head Videos with Diffusion Transformers [3.3508228801277853]
オーディオ駆動ビデオV編集のためのDiTTベースのフレームワークであるEditYourselfを紹介する。これにより、シームレスな追加、削除、視覚的に話されるコンテンツの調整など、音声ビデオの書き起こしに基づく修正が可能になる。これは、プロ向けビデオポストプロダクションの実用的なツールとして、生成ビデオモデルへの一歩である。
論文参考訳（メタデータ） (2026-01-29T18:49:27Z)
Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner [66.96392168346851]
AVI-Editはオーディオ同期ビデオインスタンス編集のためのフレームワークである。本稿では,粗いユーザ用マスクを精密なインスタンスレベル領域に反復的に洗練する,粒度対応マスク精製器を提案する。我々はまた、高品質なオーディオガイダンスをキュレートし、きめ細かい時間制御を提供するセルフフィードバックオーディオエージェントを設計する。
論文参考訳（メタデータ） (2025-12-11T11:58:53Z)
Taming Flow-based I2V Models for Creative Video Editing [64.67801702413122]
ビデオ編集は、ユーザーの意図に応じてビデオを編集することを目的としているが、まだまだ課題だ。既存の画像条件付きビデオ編集手法の多くは、モデル固有の設計の逆変換を必要とするか、あるいは広範囲の最適化を必要とする。 Inversion-Free 方式である IF-V2V を提案し,ビデオ編集のためのオフザシェルフフローマッチングベースの I2V モデルを,計算オーバーヘッドの大きいものに適応させる。
論文参考訳（メタデータ） (2025-09-26T05:57:04Z)
Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking [53.434260110195446]
Safe-Soraは、ビデオ生成プロセスに直接グラフィカルな透かしを直接埋め込む最初のフレームワークである。適応型局所時間走査戦略を用いた3次元ウェーブレット変換拡張型Mambaアーキテクチャを開発した。ビデオの品質、透かしの忠実さ、堅牢性の観点から、Safe-Soraは最先端のパフォーマンスを実証した。
論文参考訳（メタデータ） (2025-05-19T03:31:31Z)
VideoMark: A Distortion-Free Robust Watermarking Framework for Video Diffusion Models [18.043141353517317]
VideoMarkは、ビデオ拡散モデルのためのトレーニング不要の堅牢な透かしフレームワークである。提案手法は拡張された透かしメッセージ列を生成し,各ビデオの開始位置をランダムに選択する。我々の透かしはシークレットキーなしで攻撃者には検出できないままであり、他の透かしフレームワークと比較して強い非知覚性を保証する。
論文参考訳（メタデータ） (2025-04-23T02:21:12Z)
XAttnMark: Learning Robust Audio Watermarking with Cross-Attention [15.216472445154064]
クロスアテンションロバスト音響透かし(XAttnMark) 本稿では,ジェネレータと検出器間の部分パラメータ共有を利用してギャップを埋めるクロスアテンションロバスト音響透かし(XAttnMark)を提案する。本研究では, 聴覚マスキング効果の微粒化を捉え, 透かしの受容性を向上する心理音響整列型時間周波数マスキング障害を提案する。
論文参考訳（メタデータ） (2025-02-06T17:15:08Z)
VideoShield: Regulating Diffusion-based Video Generation Models via Watermarking [27.345134138673945]
VideoShieldはビデオ生成モデルのための新しい透かしフレームワークである。後処理の方法とは異なり、VideoShieldはビデオ生成中に直接透かしを埋め込む。ビデオの整合性を確保するため,タンパーのローカライゼーション機能を導入する。
論文参考訳（メタデータ） (2025-01-24T02:57:09Z)
Video Seal: Open and Efficient Video Watermarking [47.40833588157406]
ビデオ透かしは、認識不能な信号をビデオに埋め込むことによって、課題に対処する。 Video Sealは、ニューラルビデオ透かしのための包括的なフレームワークであり、競合するオープンソースモデルである。提案手法の有効性を, 速度, 不受容性, 頑健性の観点から実験的に検証した。
論文参考訳（メタデータ） (2024-12-12T17:41:49Z)
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement [63.4357918830628]
VideoRepairは、モデルに依存しない、トレーニングなしのビデオリファインメントフレームワークである。微粒なテキストビデオの誤りを特定し、明示的な空間的およびテキスト的フィードバックを生成する。 VideoRepairは、テキストとビデオのアライメントの指標で、最近のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2024-11-22T18:31:47Z)
Blended Latent Diffusion under Attention Control for Real-World Video Editing [5.659933808910005]
本稿では,局所的なビデオ編集作業を行うために,画像レベルのブレンド潜在拡散モデルを適用することを提案する。具体的には、DDIMのインバージョンを利用して、ランダムにノイズのあるものではなく、背景の潜伏者として潜伏者を取得する。また,拡散段階におけるクロスアテンションマップから導かれる自律マスク製造機構を導入する。
論文参考訳（メタデータ） (2024-09-05T13:23:52Z)
Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文参考訳（メタデータ） (2024-06-07T12:33:59Z)
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。 I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文参考訳（メタデータ） (2024-05-26T11:47:40Z)
VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文参考訳（メタデータ） (2023-12-17T09:05:56Z)
MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文参考訳（メタデータ） (2023-11-30T18:59:33Z)
Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-02T11:28:37Z)
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文参考訳（メタデータ） (2023-03-16T17:51:13Z)
Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。 Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文参考訳（メタデータ） (2023-03-08T17:53:49Z)
FOCAL: A Forgery Localization Framework based on Video Coding Self-Consistency [26.834506269499094]
本稿では,ビデオフレーム内における符号化トレースの自己整合性を検証するビデオフォージェリーローカライゼーションフレームワークを提案する。全体フレームワークは、時間的スプライシングと空間的スプライシングの2つの典型的なフォージェリーシナリオで検証された。実験結果から,空間スプライシングにおける時間的スプライシングの局所化に関する最先端技術の改善と,空間スプライシングの新たな取組における有望な性能が示された。
論文参考訳（メタデータ） (2020-08-24T13:55:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。