論文の概要: VocBulwark: Towards Practical Generative Speech Watermarking via Additional-Parameter Injection
- arxiv url: http://arxiv.org/abs/2601.22556v1
- Date: Fri, 30 Jan 2026 04:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.229155
- Title: VocBulwark: Towards Practical Generative Speech Watermarking via Additional-Parameter Injection
- Title(参考訳): VocBulwark: 追加パラメータ注入による実用的な音声透かしの実現に向けて
- Authors: Weizhi Liu, Yue Li, Zhaoxia Yin,
- Abstract要約: VocBulwarkは、知覚品質を維持するために生成モデルパラメータを凍結するフレームワークである。
VocBulwarkは高容量かつ高忠実な透かしを実現し、複雑な実践シナリオに対して堅牢な防御を提供する。
- 参考スコア(独自算出の注目度): 10.244226665349483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generated speech achieves human-level naturalness but escalates security risks of misuse. However, existing watermarking methods fail to reconcile fidelity with robustness, as they rely either on simple superposition in the noise space or on intrusive alterations to model weights. To bridge this gap, we propose VocBulwark, an additional-parameter injection framework that freezes generative model parameters to preserve perceptual quality. Specifically, we design a Temporal Adapter to deeply entangle watermarks with acoustic attributes, synergizing with a Coarse-to-Fine Gated Extractor to resist advanced attacks. Furthermore, we develop an Accuracy-Guided Optimization Curriculum that dynamically orchestrates gradient flow to resolve the optimization conflict between fidelity and robustness. Comprehensive experiments demonstrate that VocBulwark achieves high-capacity and high-fidelity watermarking, offering robust defense against complex practical scenarios, with resilience to Codec regenerations and variable-length manipulations.
- Abstract(参考訳): 生成された音声は人間レベルの自然性を達成するが、誤用によるセキュリティリスクを増大させる。
しかし、既存の透かし法は、ノイズ空間における単純な重ね合わせや、重量をモデル化するための侵入的変化に依存するため、忠実さを頑健さで再現することができない。
このギャップを埋めるために、我々は、知覚品質を維持するために生成モデルパラメータを凍結する追加パラメータ注入フレームワークであるVocBulwarkを提案する。
具体的には,アコースティックな特性を持つ透かしを深く絡ませるテンポラルアダプタを設計し,より高度な攻撃に抗うために粗大なゲート付きエクストラクタを併用する。
さらに,不確実性とロバスト性の間の最適化競合を解決するために,勾配流を動的にオーケストレーションする精度誘導最適化カリキュラムを開発した。
総合的な実験により、VocBulwarkは高容量かつ高忠実な透かしを実現し、コーデック再生と可変長操作に対するレジリエンスを備えた複雑な現実的なシナリオに対して堅牢な防御を提供する。
関連論文リスト
- SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - SOLIDO: A Robust Watermarking Method for Speech Synthesis via Low-Rank Adaptation [3.1682080884953736]
本稿では,パラメータ効率の良い微調整と音声透かしを融合した生成型透かし法を提案する。
提案手法は,2000bpsの容量でも高忠実度透かし音声を保証する。
他の最先端の手法を23%近く上回り、時間延ばし攻撃に抵抗する。
論文 参考訳(メタデータ) (2025-04-21T11:43:36Z) - Gaussian Shading++: Rethinking the Realistic Deployment Challenge of Performance-Lossless Image Watermark for Diffusion Models [66.54457339638004]
著作権保護と不適切なコンテンツ生成は、拡散モデルの実装に課題をもたらす。
本研究では,実世界の展開に適した拡散モデル透かし手法を提案する。
Gaussian Shading++はパフォーマンスのロスレス性を維持するだけでなく、ロバスト性の観点からも既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-04-21T11:18:16Z) - GROOT: Generating Robust Watermark for Diffusion-Model-Based Audio Synthesis [37.065509936285466]
本稿では,Groot を用いたロバストな音声透かし手法を提案する。
このパラダイムでは、透かし生成と音声合成のプロセスが同時に行われる。
Grootは複合攻撃に直面した場合、異常な堅牢性を示し、平均的な透かし抽出精度は約95%を維持している。
論文 参考訳(メタデータ) (2024-07-15T06:57:19Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。