論文の概要: V-Cloak: Intelligibility-, Naturalness- & Timbre-Preserving Real-Time
Voice Anonymization
- arxiv url: http://arxiv.org/abs/2210.15140v1
- Date: Thu, 27 Oct 2022 02:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 15:31:44.443819
- Title: V-Cloak: Intelligibility-, Naturalness- & Timbre-Preserving Real-Time
Voice Anonymization
- Title(参考訳): V-Cloak:知能・自然性・音色保存リアルタイム音声匿名化
- Authors: Jiangyi Deng (1), Fei Teng (1), Yanjiao Chen (1), Xiaofu Chen (2),
Zhaohui Wang (2), Wenyuan Xu (1) ((1) Zhejiang University, (2) Wuhan
University)
- Abstract要約: 我々は,V-Cloakという音声匿名化システムを開発し,リアルタイム音声匿名化を実現する。
設計した匿名化器は、異なる周波数レベルでオリジナル音声の特徴を変調するワンショット生成モデルを備えている。
実験結果から,V-Cloakは匿名性能において5つのベースラインより優れていたことが確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice data generated on instant messaging or social media applications
contains unique user voiceprints that may be abused by malicious adversaries
for identity inference or identity theft. Existing voice anonymization
techniques, e.g., signal processing and voice conversion/synthesis, suffer from
degradation of perceptual quality. In this paper, we develop a voice
anonymization system, named V-Cloak, which attains real-time voice
anonymization while preserving the intelligibility, naturalness and timbre of
the audio. Our designed anonymizer features a one-shot generative model that
modulates the features of the original audio at different frequency levels. We
train the anonymizer with a carefully-designed loss function. Apart from the
anonymity loss, we further incorporate the intelligibility loss and the
psychoacoustics-based naturalness loss. The anonymizer can realize untargeted
and targeted anonymization to achieve the anonymity goals of unidentifiability
and unlinkability.
We have conducted extensive experiments on four datasets, i.e., LibriSpeech
(English), AISHELL (Chinese), CommonVoice (French) and CommonVoice (Italian),
five Automatic Speaker Verification (ASV) systems (including two DNN-based, two
statistical and one commercial ASV), and eleven Automatic Speech Recognition
(ASR) systems (for different languages). Experiment results confirm that
V-Cloak outperforms five baselines in terms of anonymity performance. We also
demonstrate that V-Cloak trained only on the VoxCeleb1 dataset against
ECAPA-TDNN ASV and DeepSpeech2 ASR has transferable anonymity against other
ASVs and cross-language intelligibility for other ASRs. Furthermore, we verify
the robustness of V-Cloak against various de-noising techniques and adaptive
attacks. Hopefully, V-Cloak may provide a cloak for us in a prism world.
- Abstract(参考訳): インスタントメッセージングやソーシャルメディアアプリケーションで生成された音声データは、ID推測や個人情報盗難で悪意ある敵によって悪用される可能性のあるユニークなユーザ音声プリントを含んでいる。
既存の音声匿名化技術、例えば信号処理や音声変換/合成は知覚品質の劣化に悩まされる。
本稿では,音声の知性,自然性,音色を保ちながら,リアルタイムな音声匿名化を実現するV-Cloakという音声匿名システムを開発する。
設計した匿名化器は、異なる周波数レベルでオリジナル音声の特徴を変調するワンショット生成モデルを備えている。
我々は、慎重に設計された損失関数で匿名化器を訓練する。
匿名性損失は別として、知性損失と精神音響に基づく自然性損失を更に取り入れる。
匿名化器は、未特定かつ対象の匿名化を実現し、未特定性と非リンク性の匿名化目標を達成する。
我々は4つのデータセット、すなわち、LibriSpeech(英語)、AISHELL(中国語)、CommonVoice(フランス語)、CommonVoice(イタリア語)、5つの自動話者検証(ASV)システム(DNNベース2つ、統計学ベース2つ、商用ASV1つを含む)、11の自動音声認識(ASR)システムについて広範な実験を行った。
実験結果から,V-Cloakは匿名性能において5つのベースラインを上回った。
また、VoxCeleb1データセットでトレーニングされたECAPA-TDNN ASVとDeepSpeech2 ASRが、他のASVに対してトランスファー可能な匿名性を持ち、他のASRに対して言語間の知性を持つことを示す。
さらに,V-Cloakの各種ノイズ除去手法と適応攻撃に対するロバスト性を検証する。
願わくば、V-Cloakは、プリズムの世界で私たちにクロークを提供するかもしれない。
関連論文リスト
- Improving Voice Quality in Speech Anonymization With Just Perception-Informed Losses [0.08155575318208629]
音声匿名化は、話者のアイデンティティを曖昧にしつつ、その後のタスクに重要な情報を保持する必要がある。
本研究は,人間の聴覚システムにインスパイアされた損失関数の重要性を浮き彫りにする。
提案する損失関数はモデルに依存しず,手工芸と深層学習を併用して品質表現を効果的に把握する。
論文 参考訳(メタデータ) (2024-10-20T20:33:44Z) - Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion [5.483488375189695]
顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。
先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。
上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。
論文 参考訳(メタデータ) (2024-09-01T11:51:18Z) - Anonymizing Speech: Evaluating and Designing Speaker Anonymization
Techniques [1.2691047660244337]
音声ユーザインタフェースの利用が増加し、音声データの収集と保存が急増した。
本論文は、音声の匿名化と匿名化の程度を評価するためのソリューションを提案する。
論文 参考訳(メタデータ) (2023-08-05T16:14:17Z) - On the Impact of Voice Anonymization on Speech Diagnostic Applications: a Case Study on COVID-19 Detection [13.227360396362707]
話者のプライバシーとアイデンティティを維持するために、音声匿名化への関心が高まっている。
しかし、感情コンピューティングや疾患モニタリングのアプリケーションにとって、パラ言語的コンテンツはより重要かもしれない。
我々は3つの匿名化手法と、5つの異なる最先端の新型コロナウイルス診断システムへの影響を検証した。
論文 参考訳(メタデータ) (2023-04-05T01:09:58Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Speaker anonymisation using the McAdams coefficient [19.168733328810962]
本稿では,既存の手法とは異なり,トレーニングデータを必要としない匿名化アプローチについて報告する。
提案手法は,McAdams係数を用いて音声信号のスペクトル包絡を変換する。
結果は、ランダムに最適化された変換が匿名化の点で競合する解より優れていることを示している。
論文 参考訳(メタデータ) (2020-11-02T17:07:17Z) - Design Choices for X-vector Based Speaker Anonymization [48.46018902334472]
第1回VoicePrivacy Challengeのベースラインとして,フレキシブルな擬似話者選択手法を提案する。
LibriSpeechから派生したデータセットを使用して実験を行い、プライバシとユーティリティの観点から設計選択の最適な組み合わせを見つける。
論文 参考訳(メタデータ) (2020-05-18T11:32:14Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。