論文の概要: XAttnMark: Learning Robust Audio Watermarking with Cross-Attention
- arxiv url: http://arxiv.org/abs/2502.04230v2
- Date: Fri, 07 Feb 2025 20:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 10:46:18.200076
- Title: XAttnMark: Learning Robust Audio Watermarking with Cross-Attention
- Title(参考訳): XAttnMark: クロスアテンションでロバストなオーディオ透かしを学ぶ
- Authors: Yixin Liu, Lie Lu, Jihui Jin, Lichao Sun, Andrea Fanelli,
- Abstract要約: クロスアテンションロバスト音響透かし(XAttnMark)
本稿では,ジェネレータと検出器間の部分パラメータ共有を利用してギャップを埋めるクロスアテンションロバスト音響透かし(XAttnMark)を提案する。
本研究では, 聴覚マスキング効果の微粒化を捉え, 透かしの受容性を向上する心理音響整列型時間周波数マスキング障害を提案する。
- 参考スコア(独自算出の注目度): 15.216472445154064
- License:
- Abstract: The rapid proliferation of generative audio synthesis and editing technologies has raised significant concerns about copyright infringement, data provenance, and the spread of misinformation through deepfake audio. Watermarking offers a proactive solution by embedding imperceptible, identifiable, and traceable marks into audio content. While recent neural network-based watermarking methods like WavMark and AudioSeal have improved robustness and quality, they struggle to achieve both robust detection and accurate attribution simultaneously. This paper introduces Cross-Attention Robust Audio Watermark (XAttnMark), which bridges this gap by leveraging partial parameter sharing between the generator and the detector, a cross-attention mechanism for efficient message retrieval, and a temporal conditioning module for improved message distribution. Additionally, we propose a psychoacoustic-aligned temporal-frequency masking loss that captures fine-grained auditory masking effects, enhancing watermark imperceptibility. Our approach achieves state-of-the-art performance in both detection and attribution, demonstrating superior robustness against a wide range of audio transformations, including challenging generative editing with strong editing strength. The project webpage is available at https://liuyixin-louis.github.io/xattnmark/.
- Abstract(参考訳): 生成音声合成・編集技術の急速な普及は、著作権侵害、データ証明、およびディープフェイクオーディオによる誤情報拡散に対する重大な懸念を引き起こしている。
ウォーターマーキングは、知覚できない、識別できない、トレース可能なマークをオーディオコンテンツに埋め込むことで、積極的なソリューションを提供する。
WavMarkやAudioSealといった最近のニューラルネットワークベースの透かし手法は堅牢性と品質を改善しているが、堅牢な検出と正確な帰属の両方を同時に達成することは困難である。
本稿では,ジェネレータと検出器間の部分パラメータ共有を活用することで,このギャップを埋めるクロスアテンションロバスト音響透かし (XAttnMark) , 効率的なメッセージ検索のためのクロスアテンション機構, メッセージ分散改善のための時間条件モジュールを提案する。
さらに, 聴覚マスキング効果の微粒化を捉え, 透かしの非受容性を向上する心理音響整列型時間周波数マスキング損失を提案する。
提案手法は,検出と属性の両方において最先端の性能を実現し,強力な編集強度を持つ生成編集に挑戦するなど,幅広い音声変換に対して優れた堅牢性を示す。
プロジェクトのWebページはhttps://liuyixin-louis.github.io/xattnmark/.comで公開されている。
関連論文リスト
- IDEAW: Robust Neural Audio Watermarking with Invertible Dual-Embedding [29.89341878606415]
本稿では,効率的な位置決めのための二重埋め込み型透かしモデルの設計を行う。
実験により、提案モデルであるIDEAWは、既存の手法と比較して、高いキャパシティとより効率的な位置決め能力を持つ様々な攻撃に耐えられることが示された。
論文 参考訳(メタデータ) (2024-09-29T09:32:54Z) - Audio Codec Augmentation for Robust Collaborative Watermarking of Speech Synthesis [9.48476556434306]
本稿では,従来の音声コーデックとニューラルオーディオコーデックを併用するために,チャネル拡張を拡張した。
リスニングテストでは、8kbpsの高コーデックやDACで、協調的な透かしが知覚上の劣化を無視できることを示した。
論文 参考訳(メタデータ) (2024-09-20T10:33:17Z) - AudioMarkBench: Benchmarking Robustness of Audio Watermarking [38.25450275151647]
本稿では,透かし除去と透かし偽造に対する音響透かしの堅牢性を評価するための最初の体系的ベンチマークであるAudioMarkBenchを紹介する。
以上の結果から,従来の透かし手法の脆弱性を強調し,より堅牢で公正な透かしソリューションの必要性を強調した。
論文 参考訳(メタデータ) (2024-06-11T06:18:29Z) - Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - Invisible Watermarking for Audio Generation Diffusion Models [11.901028740065662]
本稿では,メル-スペクトログラムで学習した音声拡散モデルに適用した最初の透かし手法を提案する。
我々のモデルは、良質な音声生成だけでなく、モデル検証のための目に見えない透かしトリガー機構も備えている。
論文 参考訳(メタデータ) (2023-09-22T20:10:46Z) - WavMark: Watermarking for Audio Generation [70.65175179548208]
本稿では,わずか1秒の音声スニペット内に最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。
透かしは人間の感覚に影響されず、様々な攻撃に対して強い弾力性を示す。
合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-24T13:17:35Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Tree-Ring Watermarks: Fingerprints for Diffusion Images that are
Invisible and Robust [55.91987293510401]
生成モデルのアウトプットを透かしは、著作権をトレースし、AI生成コンテンツによる潜在的な害を防ぐ重要なテクニックである。
本稿では,拡散モデル出力を頑健にフィンガープリントするTree-Ring Watermarkingという新しい手法を提案する。
私たちの透かしは画像空間に意味的に隠れており、現在デプロイされている透かしよりもはるかに堅牢です。
論文 参考訳(メタデータ) (2023-05-31T17:00:31Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。