論文の概要: Proactive Detection of Voice Cloning with Localized Watermarking
- arxiv url: http://arxiv.org/abs/2401.17264v2
- Date: Thu, 6 Jun 2024 17:48:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:00:12.507641
- Title: Proactive Detection of Voice Cloning with Localized Watermarking
- Title(参考訳): 局所的な電子透かしによる音声クローンの能動的検出
- Authors: Robin San Roman, Pierre Fernandez, Alexandre Défossez, Teddy Furon, Tuan Tran, Hady Elsahar,
- Abstract要約: 本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 50.13539630769929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly evolving field of speech generative models, there is a pressing need to ensure audio authenticity against the risks of voice cloning. We present AudioSeal, the first audio watermarking technique designed specifically for localized detection of AI-generated speech. AudioSeal employs a generator/detector architecture trained jointly with a localization loss to enable localized watermark detection up to the sample level, and a novel perceptual loss inspired by auditory masking, that enables AudioSeal to achieve better imperceptibility. AudioSeal achieves state-of-the-art performance in terms of robustness to real life audio manipulations and imperceptibility based on automatic and human evaluation metrics. Additionally, AudioSeal is designed with a fast, single-pass detector, that significantly surpasses existing models in speed - achieving detection up to two orders of magnitude faster, making it ideal for large-scale and real-time applications.
- Abstract(参考訳): 音声生成モデルの急速に発展する分野では、音声のクローン化のリスクに対して、音声の信頼性を確保する必要がある。
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、サンプルレベルまで局所的な透かし検出を可能にするために、ローカライズロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを採用し、聴覚マスキングにインスパイアされた新しい知覚損失により、AudioSealはより非知覚性を向上できる。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
さらに、AudioSealは高速でシングルパスの検出器で設計されており、既存のモデルよりも高速で2桁高速な検出を実現し、大規模およびリアルタイムのアプリケーションに最適である。
関連論文リスト
- IDEAW: Robust Neural Audio Watermarking with Invertible Dual-Embedding [29.89341878606415]
本稿では,効率的な位置決めのための二重埋め込み型透かしモデルの設計を行う。
実験により、提案モデルであるIDEAWは、既存の手法と比較して、高いキャパシティとより効率的な位置決め能力を持つ様々な攻撃に耐えられることが示された。
論文 参考訳(メタデータ) (2024-09-29T09:32:54Z) - Attention-Based Efficient Breath Sound Removal in Studio Audio Recordings [0.0]
非音声音声の自動検出と消去のための革新的でパラメータ効率の良いモデルを提案する。
提案モデルは,高度な深層学習技術の適用により達成された,合理化プロセスと優れた精度を提供することによって,限界に対処する。
我々のモデルは、音響技術者にとって貴重な時間を節約するだけでなく、オーディオ制作の品質と一貫性も向上させる。
論文 参考訳(メタデータ) (2024-09-08T02:11:33Z) - Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - Histogram Layer Time Delay Neural Networks for Passive Sonar
Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。
提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文 参考訳(メタデータ) (2023-07-25T19:47:26Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Evaluating Automatic Speech Recognition in an Incremental Setting [0.7734726150561086]
単語誤り率,レイテンシ,すでに認識されている単語に対する英語テストデータへの更新回数などの指標を用いて,6つの音声認識器を体系的に評価した。
一般的に、ローカルの認識器はより高速で、クラウドベースの認識器よりも少ない更新を必要とする。
論文 参考訳(メタデータ) (2023-02-23T14:22:40Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。