論文の概要: Speech Watermarking with Discrete Intermediate Representations
- arxiv url: http://arxiv.org/abs/2412.13917v1
- Date: Wed, 18 Dec 2024 14:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:22:51.896702
- Title: Speech Watermarking with Discrete Intermediate Representations
- Title(参考訳): 離散中間表現を用いた音声透かし
- Authors: Shengpeng Ji, Ziyue Jiang, Jialong Zuo, Minghui Fang, Yifu Chen, Tao Jin, Zhou Zhao,
- Abstract要約: 本稿では,音声の中間表現に透かしを注入する新しい音声透かしフレームワークを提案する。
DiscreteWMは、堅牢性と非受容性を同時に実現します。
我々のフレキシブルなフレームワイドアプローチは、音声のクローン検出と情報隠蔽の両面において効率的な解決策となる。
- 参考スコア(独自算出の注目度): 45.892635912641836
- License:
- Abstract: Speech watermarking techniques can proactively mitigate the potential harmful consequences of instant voice cloning techniques. These techniques involve the insertion of signals into speech that are imperceptible to humans but can be detected by algorithms. Previous approaches typically embed watermark messages into continuous space. However, intuitively, embedding watermark information into robust discrete latent space can significantly improve the robustness of watermarking systems. In this paper, we propose DiscreteWM, a novel speech watermarking framework that injects watermarks into the discrete intermediate representations of speech. Specifically, we map speech into discrete latent space with a vector-quantized autoencoder and inject watermarks by changing the modular arithmetic relation of discrete IDs. To ensure the imperceptibility of watermarks, we also propose a manipulator model to select the candidate tokens for watermark embedding. Experimental results demonstrate that our framework achieves state-of-the-art performance in robustness and imperceptibility, simultaneously. Moreover, our flexible frame-wise approach can serve as an efficient solution for both voice cloning detection and information hiding. Additionally, DiscreteWM can encode 1 to 150 bits of watermark information within a 1-second speech clip, indicating its encoding capacity. Audio samples are available at https://DiscreteWM.github.io/discrete_wm.
- Abstract(参考訳): 音声透かし技術は、インスタント音声クローニング技術の潜在的有害な影響を積極的に軽減することができる。
これらの技術は、人間には知覚できないがアルゴリズムによって検出できる音声への信号の挿入を含む。
従来のアプローチでは、透かしメッセージを連続した空間に埋め込むのが一般的だった。
しかし直感的には、頑健な離散潜在空間に透かし情報を埋め込むことは、透かしシステムの堅牢性を大幅に向上させることができる。
本稿では,音声の中間表現に透かしを注入する新しい音声透かしフレームワークであるDiscreteWMを提案する。
具体的には、ベクトル量子化オートエンコーダを用いて音声を離散潜在空間にマッピングし、離散IDのモジュラー演算関係を変化させて透かしを注入する。
また,透かしの認識不能性を確保するため,透かし埋め込みのための候補トークンを選択するマニピュレータモデルを提案する。
実験により,本フレームワークは,頑健性と非受容性の両面において,最先端の性能を同時に達成できることが実証された。
さらに,我々のフレキシブル・フレーム・ワイド・アプローチは,音声のクローン検出と情報隠蔽の両面において,効率的な解決策となる。
さらに、DiscreteWMは1秒の音声クリップ内に1ビットから150ビットの透かし情報をエンコードすることができ、符号化能力を示している。
オーディオサンプルはhttps://DiscreteWM.github.io/discrete_wm.comで入手できる。
関連論文リスト
- I Know You Did Not Write That! A Sampling Based Watermarking Method for
Identifying Machine Generated Text [0.0]
機械生成テキストを検出するための新しい透かし手法を提案する。
我々の方法は生成されたテキストにユニークなパターンを埋め込む。
本稿では,透かしがテキスト品質にどのように影響するかを示し,提案手法を最先端の透かし法と比較する。
論文 参考訳(メタデータ) (2023-11-29T20:04:57Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - Tree-Ring Watermarks: Fingerprints for Diffusion Images that are
Invisible and Robust [55.91987293510401]
生成モデルのアウトプットを透かしは、著作権をトレースし、AI生成コンテンツによる潜在的な害を防ぐ重要なテクニックである。
本稿では,拡散モデル出力を頑健にフィンガープリントするTree-Ring Watermarkingという新しい手法を提案する。
私たちの透かしは画像空間に意味的に隠れており、現在デプロイされている透かしよりもはるかに堅牢です。
論文 参考訳(メタデータ) (2023-05-31T17:00:31Z) - Undetectable Watermarks for Language Models [1.347733333991357]
本稿では,言語モデルに対する検出不能な透かしの概念を紹介する。
透かしは秘密鍵の知識でのみ検出できます
一方向関数の存在に基づいて検出不能な透かしを構築する。
論文 参考訳(メタデータ) (2023-05-25T02:57:16Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z) - Watermarking Images in Self-Supervised Latent Spaces [75.99287942537138]
我々は,自己教師型アプローチに照らして,事前学習した深層ネットワークに基づく透かし手法を再検討する。
我々は、マーク時間におけるデータの増大を利用して、マークとバイナリのメッセージをその潜在空間に埋め込む方法を提案する。
論文 参考訳(メタデータ) (2021-12-17T15:52:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。