論文の概要: WavMark: Watermarking for Audio Generation
- arxiv url: http://arxiv.org/abs/2308.12770v2
- Date: Thu, 16 Nov 2023 06:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 22:36:04.153383
- Title: WavMark: Watermarking for Audio Generation
- Title(参考訳): WavMark: オーディオ生成のための透かし
- Authors: Guangyu Chen, Yu Wu, Shujie Liu, Tao Liu, Xiaoyong Du, Furu Wei
- Abstract要約: 本稿では,わずか1秒の音声スニペット内に最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。
透かしは人間の感覚に影響されず、様々な攻撃に対して強い弾力性を示す。
合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。
- 参考スコア(独自算出の注目度): 70.65175179548208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in zero-shot voice synthesis have enabled imitating a
speaker's voice using just a few seconds of recording while maintaining a high
level of realism. Alongside its potential benefits, this powerful technology
introduces notable risks, including voice fraud and speaker impersonation.
Unlike the conventional approach of solely relying on passive methods for
detecting synthetic data, watermarking presents a proactive and robust defence
mechanism against these looming risks. This paper introduces an innovative
audio watermarking framework that encodes up to 32 bits of watermark within a
mere 1-second audio snippet. The watermark is imperceptible to human senses and
exhibits strong resilience against various attacks. It can serve as an
effective identifier for synthesized voices and holds potential for broader
applications in audio copyright protection. Moreover, this framework boasts
high flexibility, allowing for the combination of multiple watermark segments
to achieve heightened robustness and expanded capacity. Utilizing 10 to
20-second audio as the host, our approach demonstrates an average Bit Error
Rate (BER) of 0.48\% across ten common attacks, a remarkable reduction of over
2800\% in BER compared to the state-of-the-art watermarking tool. See
https://aka.ms/wavmark for demos of our work.
- Abstract(参考訳): ゼロショット音声合成の最近の進歩は、高レベルのリアリズムを維持しながら、わずか数秒の録音で話者の声を模倣することを可能にする。
その潜在的なメリットに加えて、この強力な技術は、音声詐欺やスピーカーの偽造など、大きなリスクをもたらす。
従来の合成データ検出の受動的手法にのみ依存するアプローチとは異なり、ウォーターマーキングはこれらの略奪的リスクに対して積極的に堅牢な防御機構を示す。
本稿では,1秒間の音声スニペット内で最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。
透かしは人間の感覚に影響されず、様々な攻撃に対して強い抵抗力を示す。
合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。
さらに、このフレームワークは柔軟性が高く、複数のウォーターマークセグメントを組み合わせることで、堅牢性と拡張容量を実現することができる。
10秒から20秒の音声をホストとして使用することで、平均ビットエラーレート(ber)が10回の一般的な攻撃で0.48\%となり、最先端のウォーターマーキングツールと比較して2800\%以上のberが著しく削減されることを示した。
私たちの作品のデモはhttps://aka.ms/wavmarkを参照。
関連論文リスト
- IDEAW: Robust Neural Audio Watermarking with Invertible Dual-Embedding [29.89341878606415]
本稿では,効率的な位置決めのための二重埋め込み型透かしモデルの設計を行う。
実験により、提案モデルであるIDEAWは、既存の手法と比較して、高いキャパシティとより効率的な位置決め能力を持つ様々な攻撃に耐えられることが示された。
論文 参考訳(メタデータ) (2024-09-29T09:32:54Z) - Audio Codec Augmentation for Robust Collaborative Watermarking of Speech Synthesis [9.48476556434306]
本稿では,従来の音声コーデックとニューラルオーディオコーデックを併用するために,チャネル拡張を拡張した。
リスニングテストでは、8kbpsの高コーデックやDACで、協調的な透かしが知覚上の劣化を無視できることを示した。
論文 参考訳(メタデータ) (2024-09-20T10:33:17Z) - AudioMarkBench: Benchmarking Robustness of Audio Watermarking [38.25450275151647]
本稿では,透かし除去と透かし偽造に対する音響透かしの堅牢性を評価するための最初の体系的ベンチマークであるAudioMarkBenchを紹介する。
以上の結果から,従来の透かし手法の脆弱性を強調し,より堅牢で公正な透かしソリューションの必要性を強調した。
論文 参考訳(メタデータ) (2024-06-11T06:18:29Z) - SilentCipher: Deep Audio Watermarking [26.559909295466586]
音声透かしにおける3つの重要な革新を紹介する。
まず、心理音響モデルに基づくしきい値を統合して、知覚不能な透かしを実現する。
次に,psuedo-differentiable compression layerを導入し,透かしアルゴリズムの堅牢性を向上させる。
第三に、知覚的損失を排除し、堅牢性および知覚不能な透かしの両方でSOTAを実現する方法を提案する。
論文 参考訳(メタデータ) (2024-06-06T07:58:31Z) - Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - Invisible Image Watermarks Are Provably Removable Using Generative AI [47.25747266531665]
Invisibleの透かしは、所有者によってのみ検出可能な隠されたメッセージを埋め込むことで、画像の著作権を保護する。
我々は、これらの見えない透かしを取り除くために、再生攻撃のファミリーを提案する。
提案手法は,まず画像にランダムノイズを加えて透かしを破壊し,画像を再構成する。
論文 参考訳(メタデータ) (2023-06-02T23:29:28Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。