論文の概要: mAVE: A Watermark for Joint Audio-Visual Generation Models
- arxiv url: http://arxiv.org/abs/2603.07090v1
- Date: Sat, 07 Mar 2026 07:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.804183
- Title: mAVE: A Watermark for Joint Audio-Visual Generation Models
- Title(参考訳): mAVE: 共同音像生成モデルのための透かし
- Authors: Luyang Si, Leyi Pan, Lijie Wen,
- Abstract要約: 共同建築用に設計された最初の透かしフレームワークであるmAVE(Manifold Audio-Visual Entanglement)を提案する。
最先端モデル(LTX-2, MOVA)の実験では、mAVEは性能のロスレス性を保証し、スワップアタックに対する指数的セキュリティを提供する。
- 参考スコア(独自算出の注目度): 9.2428496298441
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As Joint Audio-Visual Generation Models see widespread commercial deployment, embedding watermarks has become essential for protecting vendor copyright and ensuring content provenance. However, existing techniques suffer from an architectural mismatch by treating modalities as decoupled entities, exposing a critical Binding Vulnerability. Adversaries exploit this via Swap Attacks by replacing authentic audio with malicious deepfakes while retaining the watermarked video. Because current detectors rely on independent verification ($Video_{wm}\vee Audio_{wm}$), they incorrectly authenticate the manipulated content, falsely attributing harmful media to the original vendor and severely damaging their reputation. To address this, we propose mAVE (Manifold Audio-Visual Entanglement), the first watermarking framework natively designed for joint architectures. mAVE cryptographically binds audio and video latents at initialization without fine-tuning, defining a Legitimate Entanglement Manifold via Inverse Transform Sampling. Experiments on state-of-the-art models (LTX-2, MOVA) demonstrate that mAVE guarantees performance-losslessness and provides an exponential security bound against Swap Attacks. Achieving near-perfect binding integrity ($>99\%$), mAVE offers a robust cryptographic defense for vendor copyright.
- Abstract(参考訳): ジョイントオーディオ・ビジュアル・ジェネレーション・モデル(英語版)が広範な商業展開を見込んでいるように、ウォーターマークの埋め込みはベンダーの著作権を保護し、コンテンツの出所を確保するために欠かせないものとなっている。
しかし、既存のテクニックは、モダリティを分離されたエンティティとして扱い、重要なバインディング脆弱性を明らかにすることでアーキテクチャ上のミスマッチに悩まされる。
スワップ・アタック(Swap Attacks)は、本物のオーディオを悪質なディープフェイクに置き換えて、透かしのあるビデオを保存している。
現在の検知器は独立した検証(Video_{wm}\vee Audio_{wm}$)に依存しているため、不正に操作されたコンテンツを認証し、有害なメディアを元のベンダーに誤った帰属させ、その評判を著しく損なう。
そこで本研究では,共同建築用に設計された最初の透かしフレームワークであるmAVE(Manifold Audio-Visual Entanglement)を提案する。
mAVEは、微調整なしで初期化時に音声やビデオのラテントを暗号的にバインドし、逆変換サンプリング(Inverse Transform Sampling)によって直交の絡み合わせ(Legitimate Entanglement Manifold)を定義する。
最先端モデル(LTX-2, MOVA)の実験では、mAVEは性能のロスレス性を保証し、スワップアタックに対する指数的セキュリティを提供する。
mAVEは、ほぼ完全なバインディング整合性(>99\%$)を達成することで、ベンダーの著作権に対する堅牢な暗号化防御を提供する。
関連論文リスト
- Latent-Mark: An Audio Watermark Robust to Neural Resynthesis [62.09761127079914]
Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。
私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。
我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
論文 参考訳(メタデータ) (2026-03-05T15:51:09Z) - Adapter Shield: A Unified Framework with Built-in Authentication for Preventing Unauthorized Zero-Shot Image-to-Image Generation [74.5813283875938]
ゼロショット画像・画像生成は知的財産権侵害に重大なリスクをもたらす。
この研究は、個人イメージを誤用から守ることを目的とした、最初の普遍的および認証統合ソリューションであるAdapter Shieldを提示する。
提案手法は, ゼロショット画像合成の不正化において, 最先端の防御を克服する。
論文 参考訳(メタデータ) (2025-11-25T04:49:16Z) - DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation [7.366060554733598]
我々は、悪意あるモデルが信頼された被害者モデルの本物の透かしを含むテキストを生成できる高度な攻撃である、透かしの脅威を導入する。
透かし付き教師モデルから知識を抽出することにより,攻撃者が被害者モデルの透かし信号を盗み,複製することができる。
この研究は、テキストオーサシップの検証において重要なセキュリティギャップを明らかにし、専門家が模倣したものと真正な透かしを区別できる技術へのパラダイムシフトを要求する。
論文 参考訳(メタデータ) (2025-10-13T03:53:40Z) - StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models [55.05404953041403]
拡散生成プロセスにバイナリ透かしをシームレスに統合する新しいフレームワークを提案する。
画像の忠実さ、透かしの検証、ローカライゼーションの改ざんにおいて、StableGuardは一貫して最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T16:35:19Z) - TAG-WM: Tamper-Aware Generative Image Watermarking via Diffusion Inversion Sensitivity [76.98973481600002]
本稿では,TAG-WMと命名されたタンパ認識画像ウォーターマーキング手法を提案する。
提案手法は、4つのキーモジュールからなる: 生成品質を保ちつつ、著作権と局所化の透かしを潜伏空間に埋め込むためのデュアルマークジョイントサンプリング (DMJS) アルゴリズム。
実験結果から,TAG-WMは歪み下においても,改質性および局所化能力の両面において最先端性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-06-30T03:14:07Z) - Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models [52.877452505561706]
データセットのオーナシップ検証(DOV)を損なうよう特別に設計された最初の著作権回避攻撃を提案する。
CEAT2Iは, 試料検出, トリガー同定, 効率的な透かし除去の3段階からなる。
実験の結果,CEAT2I はモデル性能を保ちながら DOV 機構を効果的に回避できることがわかった。
論文 参考訳(メタデータ) (2025-05-05T17:51:55Z) - SEAL: Semantic Aware Image Watermarking [26.606008778795193]
本稿では,生成した画像のセマンティック情報を透かしに直接埋め込む新しい透かし手法を提案する。
キーパターンは、局所性に敏感なハッシュを用いて画像のセマンティック埋め込みから推測することができる。
以上の結果から,画像生成モデルによるリスクを軽減できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-03-15T15:29:05Z) - Warfare:Breaking the Watermark Protection of AI-Generated Content [35.3860968694922]
Warfareは、コンテンツ処理のための事前学習拡散モデルと、透かし操作のための生成的敵ネットワークを活用した統合攻撃フレームワークである。
Warfareはコンテンツ品質を維持しながら高い成功率を達成することを示す。
Warfare-Plusは有効性を損なうことなく効率を高める。
論文 参考訳(メタデータ) (2023-09-27T06:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。