論文の概要: VoiceMark: Zero-Shot Voice Cloning-Resistant Watermarking Approach Leveraging Speaker-Specific Latents
- arxiv url: http://arxiv.org/abs/2505.21568v2
- Date: Fri, 30 May 2025 12:11:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.114938
- Title: VoiceMark: Zero-Shot Voice Cloning-Resistant Watermarking Approach Leveraging Speaker-Specific Latents
- Title(参考訳): VoiceMark: 話者特化話者を活用したゼロショット音声クローニング抵抗型透かしアプローチ
- Authors: Haiyun Li, Zhiyong Wu, Xiaofeng Xie, Jingran Xie, Yaoxun Xu, Hanyang Peng,
- Abstract要約: ボイスクローニング(VC)耐性透かしは、不正なクローニングを追跡・防止するための新しい技術である。
既存の方法は、ウォーターマークされたオーディオでトレーニングすることで、従来のVCモデルを効果的にトレースするが、ゼロショットVCシナリオでは失敗する。
我々は、話者固有の潜水剤を透かしキャリアとして活用する、最初のゼロショットVC耐性透かし法であるVoiceMarkを提案する。
- 参考スコア(独自算出の注目度): 11.902170180363473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice cloning (VC)-resistant watermarking is an emerging technique for tracing and preventing unauthorized cloning. Existing methods effectively trace traditional VC models by training them on watermarked audio but fail in zero-shot VC scenarios, where models synthesize audio from an audio prompt without training. To address this, we propose VoiceMark, the first zero-shot VC-resistant watermarking method that leverages speaker-specific latents as the watermark carrier, allowing the watermark to transfer through the zero-shot VC process into the synthesized audio. Additionally, we introduce VC-simulated augmentations and VAD-based loss to enhance robustness against distortions. Experiments on multiple zero-shot VC models demonstrate that VoiceMark achieves over 95% accuracy in watermark detection after zero-shot VC synthesis, significantly outperforming existing methods, which only reach around 50%. See our code and demos at: https://huggingface.co/spaces/haiyunli/VoiceMark
- Abstract(参考訳): ボイスクローニング(VC)耐性透かしは、不正なクローニングを追跡・防止するための新興技術である。
既存の方法は、ウォーターマークされたオーディオでトレーニングすることで、従来のVCモデルを効果的にトレースするが、ゼロショットVCシナリオでは失敗し、モデルはトレーニングなしでオーディオプロンプトからオーディオを合成する。
この問題を解決するために、VoiceMarkは、話者固有の潜水剤を透かしキャリアとして活用し、ゼロショットVCプロセスを通して合成音声に透かしを転送する最初のゼロショットVC耐性透かし手法である。
さらに、歪みに対する堅牢性を高めるために、VC-simulated augmentationとVADに基づく損失を導入する。
複数のゼロショットVCモデルに対する実験により、VoiceMarkはゼロショットVC合成後の透かし検出において95%以上の精度を達成し、50%程度しか到達できない既存の手法を著しく上回っている。
https://huggingface.co/spaces/haiyunli/VoiceMark
関連論文リスト
- De-AntiFake: Rethinking the Protective Perturbations Against Voice Cloning Attacks [68.41885995006643]
本研究では,現実的な脅威モデル下での音声クローン(VC)に対する保護的摂動の最初の体系的評価について検討する。
以上の結果から,既存の浄化法は保護摂動の大部分を中和するが,VCモデルの特徴空間に歪みをもたらすことが示唆された。
そこで本研究では,(1)摂動音声の浄化,(2)音素指導を用いて音素を精製し,清潔な音声分布と整合させる2段階浄化法を提案する。
論文 参考訳(メタデータ) (2025-07-03T13:30:58Z) - Speech Watermarking with Discrete Intermediate Representations [45.892635912641836]
本稿では,音声の中間表現に透かしを注入する新しい音声透かしフレームワークを提案する。
DiscreteWMは、堅牢性と非受容性を同時に実現します。
我々のフレキシブルなフレームワイドアプローチは、音声のクローン検出と情報隠蔽の両面において効率的な解決策となる。
論文 参考訳(メタデータ) (2024-12-18T14:57:06Z) - AudioMarkBench: Benchmarking Robustness of Audio Watermarking [38.25450275151647]
本稿では,透かし除去と透かし偽造に対する音響透かしの堅牢性を評価するための最初の体系的ベンチマークであるAudioMarkBenchを紹介する。
以上の結果から,従来の透かし手法の脆弱性を強調し,より堅牢で公正な透かしソリューションの必要性を強調した。
論文 参考訳(メタデータ) (2024-06-11T06:18:29Z) - Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - WavMark: Watermarking for Audio Generation [70.65175179548208]
本稿では,わずか1秒の音声スニペット内に最大32ビットの透かしを符号化する,革新的な音声透かしフレームワークを提案する。
透かしは人間の感覚に影響されず、様々な攻撃に対して強い弾力性を示す。
合成音声の効果的な識別子として機能し、オーディオ著作権保護の幅広い応用の可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-24T13:17:35Z) - Tree-Ring Watermarks: Fingerprints for Diffusion Images that are
Invisible and Robust [55.91987293510401]
生成モデルのアウトプットを透かしは、著作権をトレースし、AI生成コンテンツによる潜在的な害を防ぐ重要なテクニックである。
本稿では,拡散モデル出力を頑健にフィンガープリントするTree-Ring Watermarkingという新しい手法を提案する。
私たちの透かしは画像空間に意味的に隠れており、現在デプロイされている透かしよりもはるかに堅牢です。
論文 参考訳(メタデータ) (2023-05-31T17:00:31Z) - Speech Representation Disentanglement with Adversarial Mutual
Information Learning for One-shot Voice Conversion [42.43123253495082]
単一の話者の発話しか参照できないワンショット音声変換(VC)がホットな研究トピックとなっている。
我々は、ピッチとコンテントエンコーダのランダムな再サンプリングを採用し、音声成分をアンタングルにするために、相互情報の差分対数比上限を用いる。
VCTKデータセットの実験では、自然性とインテリジェンスの観点から、ワンショットVCの最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-18T10:36:27Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。