論文の概要: GROOT: Generating Robust Watermark for Diffusion-Model-Based Audio Synthesis
- arxiv url: http://arxiv.org/abs/2407.10471v1
- Date: Mon, 15 Jul 2024 06:57:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 16:11:00.005370
- Title: GROOT: Generating Robust Watermark for Diffusion-Model-Based Audio Synthesis
- Title(参考訳): GROOT:拡散モデルに基づく音声合成のためのロバストな透かしを生成する
- Authors: Weizhi Liu, Yue Li, Dongdong Lin, Hui Tian, Haizhou Li,
- Abstract要約: 本稿では,Groot を用いたロバストな音声透かし手法を提案する。
このパラダイムでは、透かし生成と音声合成のプロセスが同時に行われる。
Grootは複合攻撃に直面した場合、異常な堅牢性を示し、平均的な透かし抽出精度は約95%を維持している。
- 参考スコア(独自算出の注目度): 37.065509936285466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amid the burgeoning development of generative models like diffusion models, the task of differentiating synthesized audio from its natural counterpart grows more daunting. Deepfake detection offers a viable solution to combat this challenge. Yet, this defensive measure unintentionally fuels the continued refinement of generative models. Watermarking emerges as a proactive and sustainable tactic, preemptively regulating the creation and dissemination of synthesized content. Thus, this paper, as a pioneer, proposes the generative robust audio watermarking method (Groot), presenting a paradigm for proactively supervising the synthesized audio and its source diffusion models. In this paradigm, the processes of watermark generation and audio synthesis occur simultaneously, facilitated by parameter-fixed diffusion models equipped with a dedicated encoder. The watermark embedded within the audio can subsequently be retrieved by a lightweight decoder. The experimental results highlight Groot's outstanding performance, particularly in terms of robustness, surpassing that of the leading state-of-the-art methods. Beyond its impressive resilience against individual post-processing attacks, Groot exhibits exceptional robustness when facing compound attacks, maintaining an average watermark extraction accuracy of around 95%.
- Abstract(参考訳): 拡散モデルのような生成モデルの開発が盛んに進んでいる中、合成されたオーディオを自然のものと区別するタスクは、ますます困難になってきている。
ディープフェイク検出は、この課題に対処するための実行可能なソリューションを提供する。
しかし、この防御措置は、生成モデルの継続的な改良を意図せず推進する。
ウォーターマーキングは、積極的に持続的な戦術として出現し、合成されたコンテンツの創造と普及を事前に規制している。
そこで,本論文は先駆者として,合成音声とその音源拡散モデルを積極的に監視するためのパラダイムを提示する,再生可能なロバストな音声透かし手法(Groot)を提案する。
このパラダイムでは、専用エンコーダを備えたパラメータ固定拡散モデルにより、透かし生成と音声合成のプロセスが同時に実行される。
その後、オーディオに埋め込まれた透かしを軽量デコーダで検索できる。
実験結果は、特にロバスト性の観点から、Grootの卓越した性能が、最先端の手法よりも優れていることを示している。
個々のポストプロセッシング攻撃に対する印象的なレジリエンスに加えて、Grootは複合攻撃に直面した際の異常な堅牢性を示し、平均的な透かし抽出精度は約95%を維持している。
関連論文リスト
- SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Invisible Watermarking for Audio Generation Diffusion Models [11.901028740065662]
本稿では,メル-スペクトログラムで学習した音声拡散モデルに適用した最初の透かし手法を提案する。
我々のモデルは、良質な音声生成だけでなく、モデル検証のための目に見えない透かしトリガー機構も備えている。
論文 参考訳(メタデータ) (2023-09-22T20:10:46Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Period VITS: Variational Inference with Explicit Pitch Modeling for
End-to-end Emotional Speech Synthesis [19.422230767803246]
我々は,明示的な周期性生成を組み込んだ新しいエンドツーエンドテキスト音声合成モデルである Period VITS を提案する。
提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。
これらの特徴から、提案した周期性発生器は、波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波源を生成する。
論文 参考訳(メタデータ) (2022-10-28T07:52:30Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - CRASH: Raw Audio Score-based Generative Modeling for Controllable
High-resolution Drum Sound Synthesis [0.0]
非条件生音声合成のための新しいスコアベース生成モデルを提案する。
提案手法は,よりフレキシブルな生成機能を提供しながら,生音声におけるGANベースの手法とのギャップを埋める。
論文 参考訳(メタデータ) (2021-06-14T13:48:03Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。