論文の概要: DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice Conversion
- arxiv url: http://arxiv.org/abs/2209.04530v1
- Date: Fri, 9 Sep 2022 21:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:39:48.902084
- Title: DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice Conversion
- Title(参考訳): DeID-VC:ゼロショット擬似音声変換による話者識別
- Authors: Ruibin Yuan, Yuxuan Wu, Jacob Li, Jaxter Kim
- Abstract要約: DeID-VCは、実際の話者を擬似話者に変換する話者識別システムである。
PSGの助けを借りて、DeID-VCは独自の擬似話者を話者レベルや発話レベルに割り当てることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of speech-based online services raises security and
privacy concerns regarding the data that they use and share. If the data were
compromised, attackers could exploit user speech to bypass speaker verification
systems or even impersonate users. To mitigate this, we propose DeID-VC, a
speaker de-identification system that converts a real speaker to pseudo
speakers, thus removing or obfuscating the speaker-dependent attributes from a
spoken voice. The key components of DeID-VC include a Variational Autoencoder
(VAE) based Pseudo Speaker Generator (PSG) and a voice conversion Autoencoder
(AE) under zero-shot settings. With the help of PSG, DeID-VC can assign unique
pseudo speakers at speaker level or even at utterance level. Also, two novel
learning objectives are added to bridge the gap between training and inference
of zero-shot voice conversion. We present our experimental results with word
error rate (WER) and equal error rate (EER), along with three subjective
metrics to evaluate the generated output of DeID-VC. The result shows that our
method substantially improved intelligibility (WER 10% lower) and
de-identification effectiveness (EER 5% higher) compared to our baseline. Code
and listening demo: https://github.com/a43992899/DeID-VC
- Abstract(参考訳): 音声ベースのオンラインサービスの普及により、彼らが使用し共有するデータに関するセキュリティとプライバシーの懸念が高まる。
データが漏洩したら、攻撃者はユーザーのスピーチを利用して話者認証システムをバイパスしたり、ユーザーを偽装したりできる。
これを軽減するために,実話者を擬似話者に変換する話者識別システムであるDeID-VCを提案する。
DeID-VCの重要なコンポーネントは、可変オートエンコーダ(VAE)ベースのPseudo Speaker Generator(PSG)とゼロショット設定による音声変換オートエンコーダ(AE)である。
PSGの助けを借りて、DeID-VCは独自の擬似話者を話者レベルや発話レベルに割り当てることができる。
また、ゼロショット音声変換の訓練と推論のギャップを埋めるために、2つの新しい学習目標が追加された。
本稿では,単語誤り率 (WER) と等しい誤り率 (EER) と,DeID-VCの出力を評価するための3つの主観的指標について述べる。
その結果,本手法はベースラインに比べて知性が大幅に向上し(10%以下),非識別性(5%以上)が向上した。
コードとリスニングデモ:https://github.com/a43992899/DeID-VC
関連論文リスト
- Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion [5.483488375189695]
顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。
先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。
上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。
論文 参考訳(メタデータ) (2024-09-01T11:51:18Z) - Catch You and I Can: Revealing Source Voiceprint Against Voice
Conversion [0.0]
音声変換法で合成した音声から高クレジットで音源を復元する試みを初めて行った。
変換された音声サンプルから音源話者の音声プリントを効果的に抽出する表現学習モデルであるRevelioを開発した。
論文 参考訳(メタデータ) (2023-02-24T03:33:13Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention
VAE [8.144263449781967]
変分自動エンコーダ(VAE)は、音声の発声を話者識別と言語内容の潜伏埋め込みに分解する有効なニューラルネットワークアーキテクチャである。
本研究では,VAEのデコーダの適切な位置から,変換音声を生成する際に,非局所情報を組み込む自己アテンション層を付加した。
論文 参考訳(メタデータ) (2022-03-30T03:52:42Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z) - F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。
我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-04-15T22:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。