論文の概要: Smark: A Watermark for Text-to-Speech Diffusion Models via Discrete Wavelet Transform
- arxiv url: http://arxiv.org/abs/2512.18791v1
- Date: Sun, 21 Dec 2025 16:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.506797
- Title: Smark: A Watermark for Text-to-Speech Diffusion Models via Discrete Wavelet Transform
- Title(参考訳): Smark:離散ウェーブレット変換によるテキスト音声拡散モデルの透かし
- Authors: Yichuan Zhang, Chengxin Li, Yujie Gu,
- Abstract要約: 本稿ではSmarkと呼ばれるTS拡散モデルに対する普遍的な透かし方式を提案する。
Smarkは、すべてのTS拡散モデルで共有される共通の逆拡散パラダイムで機能する。
種々の実空間攻撃シナリオにおける音質と透かし性能を評価する実験を行った。
- 参考スコア(独自算出の注目度): 7.904062289123103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Speech (TTS) diffusion models generate high-quality speech, which raises challenges for the model intellectual property protection and speech tracing for legal use. Audio watermarking is a promising solution. However, due to the structural differences among various TTS diffusion models, existing watermarking methods are often designed for a specific model and degrade audio quality, which limits their practical applicability. To address this dilemma, this paper proposes a universal watermarking scheme for TTS diffusion models, termed Smark. This is achieved by designing a lightweight watermark embedding framework that operates in the common reverse diffusion paradigm shared by all TTS diffusion models. To mitigate the impact on audio quality, Smark utilizes the discrete wavelet transform (DWT) to embed watermarks into the relatively stable low-frequency regions of the audio, which ensures seamless watermark-audio integration and is resistant to removal during the reverse diffusion process. Extensive experiments are conducted to evaluate the audio quality and watermark performance in various simulated real-world attack scenarios. The experimental results show that Smark achieves superior performance in both audio quality and watermark extraction accuracy.
- Abstract(参考訳): テキスト音声拡散モデル(TTS)は高品質な音声を生成する。
オーディオ透かしは有望な解決策だ。
しかし、TTS拡散モデルの構造的な違いから、既存の透かし法は特定のモデルのために設計され、音質を劣化させるため、実用性が制限されることが多い。
このジレンマに対処するために、Smarkと呼ばれるTS拡散モデルに対する普遍的な透かし方式を提案する。
これは、すべてのTS拡散モデルで共有される共通逆拡散パラダイムで動作する軽量な透かし埋め込みフレームワークを設計することによって達成される。
音声品質への影響を軽減するため、Smarkは離散ウェーブレット変換(DWT)を用いて比較的安定した低周波領域に透かしを埋め込む。
種々の実空間攻撃シナリオにおける音質と透かし性能を評価するために,広範囲な実験を行った。
実験結果から,Smarkは音質と透かし抽出精度の両方において優れた性能を示した。
関連論文リスト
- T2SMark: Balancing Robustness and Diversity in Noise-as-Watermark for Diffusion Models [89.29541056113442]
T2SMarkはTail-Truncated Smpling(TTS)に基づく2段階の透かし方式である
U-NetとDiTのバックボーンを用いた拡散モデル上でのT2SMarkの評価を行った。
論文 参考訳(メタデータ) (2025-10-25T16:55:55Z) - StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models [55.05404953041403]
拡散生成プロセスにバイナリ透かしをシームレスに統合する新しいフレームワークを提案する。
画像の忠実さ、透かしの検証、ローカライゼーションの改ざんにおいて、StableGuardは一貫して最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T16:35:19Z) - SleeperMark: Towards Robust Watermark against Fine-Tuning Text-to-image Diffusion Models [77.80595722480074]
SleeperMarkは、回復力のある透かしをT2I拡散モデルに埋め込むように設計されたフレームワークである。
学習したセマンティックな概念から透かし情報を切り離すようモデルに誘導する。
各種拡散モデルにおけるSleeperMarkの有効性について実験を行った。
論文 参考訳(メタデータ) (2024-12-06T08:44:18Z) - GROOT: Generating Robust Watermark for Diffusion-Model-Based Audio Synthesis [37.065509936285466]
本稿では,Groot を用いたロバストな音声透かし手法を提案する。
このパラダイムでは、透かし生成と音声合成のプロセスが同時に行われる。
Grootは複合攻撃に直面した場合、異常な堅牢性を示し、平均的な透かし抽出精度は約95%を維持している。
論文 参考訳(メタデータ) (2024-07-15T06:57:19Z) - Invisible Watermarking for Audio Generation Diffusion Models [11.901028740065662]
本稿では,メル-スペクトログラムで学習した音声拡散モデルに適用した最初の透かし手法を提案する。
我々のモデルは、良質な音声生成だけでなく、モデル検証のための目に見えない透かしトリガー機構も備えている。
論文 参考訳(メタデータ) (2023-09-22T20:10:46Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Intellectual Property Protection of Diffusion Models via the Watermark
Diffusion Process [22.38407658885059]
本稿では,タスク生成時に透かしを印字せずに拡散モデルに新しい透かし手法であるWDMを紹介する。
タスク生成のための標準的な拡散プロセスと並行して、透かしを埋め込むための透かし拡散プロセス(WDP)を同時に学習するモデルを訓練する。
論文 参考訳(メタデータ) (2023-06-06T06:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。