論文の概要: WavMark: Watermarking for Audio Generation
- arxiv url: http://arxiv.org/abs/2308.12770v3
- Date: Sun, 7 Jan 2024 07:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 23:12:03.310852
- Title: WavMark: Watermarking for Audio Generation
- Title(参考訳): WavMark: オーディオ生成のための透かし
- Authors: Guangyu Chen, Yu Wu, Shujie Liu, Tao Liu, Xiaoyong Du, Furu Wei
- Abstract要約: 本稿では,わずか1秒の音声スニペット内に最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。
透かしは人間の感覚に影響されず、様々な攻撃に対して強い弾力性を示す。
合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。
- 参考スコア(独自算出の注目度): 70.65175179548208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in zero-shot voice synthesis have enabled imitating a
speaker's voice using just a few seconds of recording while maintaining a high
level of realism. Alongside its potential benefits, this powerful technology
introduces notable risks, including voice fraud and speaker impersonation.
Unlike the conventional approach of solely relying on passive methods for
detecting synthetic data, watermarking presents a proactive and robust defence
mechanism against these looming risks. This paper introduces an innovative
audio watermarking framework that encodes up to 32 bits of watermark within a
mere 1-second audio snippet. The watermark is imperceptible to human senses and
exhibits strong resilience against various attacks. It can serve as an
effective identifier for synthesized voices and holds potential for broader
applications in audio copyright protection. Moreover, this framework boasts
high flexibility, allowing for the combination of multiple watermark segments
to achieve heightened robustness and expanded capacity. Utilizing 10 to
20-second audio as the host, our approach demonstrates an average Bit Error
Rate (BER) of 0.48\% across ten common attacks, a remarkable reduction of over
2800\% in BER compared to the state-of-the-art watermarking tool. See
https://aka.ms/wavmark for demos of our work.
- Abstract(参考訳): ゼロショット音声合成の最近の進歩は、高レベルのリアリズムを維持しながら、わずか数秒の録音で話者の声を模倣することを可能にする。
その潜在的なメリットに加えて、この強力な技術は、音声詐欺やスピーカーの偽造など、大きなリスクをもたらす。
従来の合成データ検出の受動的手法にのみ依存するアプローチとは異なり、ウォーターマーキングはこれらの略奪的リスクに対して積極的に堅牢な防御機構を示す。
本稿では,1秒間の音声スニペット内で最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。
透かしは人間の感覚に影響されず、様々な攻撃に対して強い抵抗力を示す。
合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。
さらに、このフレームワークは柔軟性が高く、複数のウォーターマークセグメントを組み合わせることで、堅牢性と拡張容量を実現することができる。
10秒から20秒の音声をホストとして使用することで、平均ビットエラーレート(ber)が10回の一般的な攻撃で0.48\%となり、最先端のウォーターマーキングツールと比較して2800\%以上のberが著しく削減されることを示した。
私たちの作品のデモはhttps://aka.ms/wavmarkを参照。
関連論文リスト
- Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - Proactive Detection of Voice Cloning with Localized Watermarking [52.77113619386194]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - RAW: A Robust and Agile Plug-and-Play Watermark Framework for AI-Generated Images with Provable Guarantees [33.61946642460661]
本稿ではRAWと呼ばれる堅牢でアジャイルな透かし検出フレームワークを紹介する。
我々は、透かしの存在を検出するために、透かしと共同で訓練された分類器を用いる。
このフレームワークは,透かし画像の誤分類に対する偽陽性率に関する証明可能な保証を提供する。
論文 参考訳(メタデータ) (2024-01-23T22:00:49Z) - Benchmarking the Robustness of Image Watermarks [69.97769967867634]
本稿では,画像透かし技術の弱点について検討する。
We present WAVES, a novel benchmark for evaluate watermark robustness。
我々はWAVESを,ロバストな透かしシステムの開発のためのツールキットとして想定する。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - Invisible Watermarking for Audio Generation Diffusion Models [11.901028740065662]
本稿では,メル-スペクトログラムで学習した音声拡散モデルに適用した最初の透かし手法を提案する。
我々のモデルは、良質な音声生成だけでなく、モデル検証のための目に見えない透かしトリガー機構も備えている。
論文 参考訳(メタデータ) (2023-09-22T20:10:46Z) - Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown
Multi-Class Ensemble of CNNs [1.262949092134022]
合成音声トラックを合成に用いるジェネレータに属性付ける新しい手法を提案する。
提案した検出器は、音声を対数メル分光器に変換し、CNNを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムを分類する。
ICASSP 2022のIEEE SP Cupチャレンジでは、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。
論文 参考訳(メタデータ) (2023-09-15T04:26:39Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z) - A Deep Learning-based Audio-in-Image Watermarking Scheme [1.1231577179316237]
本稿では,深層学習に基づく音声画像透かし方式を提案する。
ニューラルネットワークアーキテクチャは、教師なしの方法で透かしプロセスを自動的に学習するように設計されている。
実験結果から, ブラインド・イン・画像透かし方式の信頼性とロバスト性を示した。
論文 参考訳(メタデータ) (2021-10-06T00:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。