論文の概要: VoiceMark: Zero-Shot Voice Cloning-Resistant Watermarking Approach Leveraging Speaker-Specific Latents
- arxiv url: http://arxiv.org/abs/2505.21568v2
- Date: Fri, 30 May 2025 12:11:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.114938
- Title: VoiceMark: Zero-Shot Voice Cloning-Resistant Watermarking Approach Leveraging Speaker-Specific Latents
- Title(参考訳): VoiceMark: 話者特化話者を活用したゼロショット音声クローニング抵抗型透かしアプローチ
- Authors: Haiyun Li, Zhiyong Wu, Xiaofeng Xie, Jingran Xie, Yaoxun Xu, Hanyang Peng,
- Abstract要約: ボイスクローニング(VC)耐性透かしは、不正なクローニングを追跡・防止するための新しい技術である。
既存の方法は、ウォーターマークされたオーディオでトレーニングすることで、従来のVCモデルを効果的にトレースするが、ゼロショットVCシナリオでは失敗する。
我々は、話者固有の潜水剤を透かしキャリアとして活用する、最初のゼロショットVC耐性透かし法であるVoiceMarkを提案する。
- 参考スコア(独自算出の注目度): 11.902170180363473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice cloning (VC)-resistant watermarking is an emerging technique for tracing and preventing unauthorized cloning. Existing methods effectively trace traditional VC models by training them on watermarked audio but fail in zero-shot VC scenarios, where models synthesize audio from an audio prompt without training. To address this, we propose VoiceMark, the first zero-shot VC-resistant watermarking method that leverages speaker-specific latents as the watermark carrier, allowing the watermark to transfer through the zero-shot VC process into the synthesized audio. Additionally, we introduce VC-simulated augmentations and VAD-based loss to enhance robustness against distortions. Experiments on multiple zero-shot VC models demonstrate that VoiceMark achieves over 95% accuracy in watermark detection after zero-shot VC synthesis, significantly outperforming existing methods, which only reach around 50%. See our code and demos at: https://huggingface.co/spaces/haiyunli/VoiceMark
- Abstract(参考訳): ボイスクローニング(VC)耐性透かしは、不正なクローニングを追跡・防止するための新興技術である。
既存の方法は、ウォーターマークされたオーディオでトレーニングすることで、従来のVCモデルを効果的にトレースするが、ゼロショットVCシナリオでは失敗し、モデルはトレーニングなしでオーディオプロンプトからオーディオを合成する。
この問題を解決するために、VoiceMarkは、話者固有の潜水剤を透かしキャリアとして活用し、ゼロショットVCプロセスを通して合成音声に透かしを転送する最初のゼロショットVC耐性透かし手法である。
さらに、歪みに対する堅牢性を高めるために、VC-simulated augmentationとVADに基づく損失を導入する。
複数のゼロショットVCモデルに対する実験により、VoiceMarkはゼロショットVC合成後の透かし検出において95%以上の精度を達成し、50%程度しか到達できない既存の手法を著しく上回っている。
https://huggingface.co/spaces/haiyunli/VoiceMark
関連論文リスト
- Speech Watermarking with Discrete Intermediate Representations [45.892635912641836]
本稿では,音声の中間表現に透かしを注入する新しい音声透かしフレームワークを提案する。
DiscreteWMは、堅牢性と非受容性を同時に実現します。
我々のフレキシブルなフレームワイドアプローチは、音声のクローン検出と情報隠蔽の両面において効率的な解決策となる。
論文 参考訳(メタデータ) (2024-12-18T14:57:06Z) - WavMark: Watermarking for Audio Generation [70.65175179548208]
本稿では,わずか1秒の音声スニペット内に最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。
透かしは人間の感覚に影響されず、様々な攻撃に対して強い弾力性を示す。
合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-24T13:17:35Z) - Tree-Ring Watermarks: Fingerprints for Diffusion Images that are
Invisible and Robust [55.91987293510401]
生成モデルのアウトプットを透かしは、著作権をトレースし、AI生成コンテンツによる潜在的な害を防ぐ重要なテクニックである。
本稿では,拡散モデル出力を頑健にフィンガープリントするTree-Ring Watermarkingという新しい手法を提案する。
私たちの透かしは画像空間に意味的に隠れており、現在デプロイされている透かしよりもはるかに堅牢です。
論文 参考訳(メタデータ) (2023-05-31T17:00:31Z) - Speech Representation Disentanglement with Adversarial Mutual
Information Learning for One-shot Voice Conversion [42.43123253495082]
単一の話者の発話しか参照できないワンショット音声変換(VC)がホットな研究トピックとなっている。
我々は、ピッチとコンテントエンコーダのランダムな再サンプリングを採用し、音声成分をアンタングルにするために、相互情報の差分対数比上限を用いる。
VCTKデータセットの実験では、自然性とインテリジェンスの観点から、ワンショットVCの最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-18T10:36:27Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。