論文の概要: Catch You and I Can: Revealing Source Voiceprint Against Voice
Conversion
- arxiv url: http://arxiv.org/abs/2302.12434v1
- Date: Fri, 24 Feb 2023 03:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 14:42:15.415887
- Title: Catch You and I Can: Revealing Source Voiceprint Against Voice
Conversion
- Title(参考訳): catch youとi can:音声変換のソース音声プリントを公開
- Authors: Jiangyi Deng (1), Yanjiao Chen (1), Yinan Zhong (1), Qianhao Miao (1),
Xueluan Gong (2), Wenyuan Xu (1) ((1) Zhejiang University, (2) Wuhan
University)
- Abstract要約: 音声変換法で合成した音声から高クレジットで音源を復元する試みを初めて行った。
変換された音声サンプルから音源話者の音声プリントを効果的に抽出する表現学習モデルであるRevelioを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice conversion (VC) techniques can be abused by malicious parties to
transform their audios to sound like a target speaker, making it hard for a
human being or a speaker verification/identification system to trace the source
speaker. In this paper, we make the first attempt to restore the source
voiceprint from audios synthesized by voice conversion methods with high
credit. However, unveiling the features of the source speaker from a converted
audio is challenging since the voice conversion operation intends to
disentangle the original features and infuse the features of the target
speaker. To fulfill our goal, we develop Revelio, a representation learning
model, which learns to effectively extract the voiceprint of the source speaker
from converted audio samples. We equip Revelio with a carefully-designed
differential rectification algorithm to eliminate the influence of the target
speaker by removing the representation component that is parallel to the
voiceprint of the target speaker. We have conducted extensive experiments to
evaluate the capability of Revelio in restoring voiceprint from audios
converted by VQVC, VQVC+, AGAIN, and BNE. The experiments verify that Revelio
is able to rebuild voiceprints that can be traced to the source speaker by
speaker verification and identification systems. Revelio also exhibits robust
performance under inter-gender conversion, unseen languages, and telephony
networks.
- Abstract(参考訳): 音声変換(VC)技術は、悪意ある当事者によって、音声をターゲットスピーカーのような音に変換するために悪用され、人間や話者の検証・識別システムがソーススピーカーを追跡するのを難しくする。
本稿では,音声変換法によって合成された音声から音源音声を高いクレジットで復元する最初の試みを行う。
しかし、変換音声から音源話者の特徴を明らかにすることは、音声変換操作が元の特徴をゆがめ、ターゲット話者の特徴を注入することを目的としているため、困難である。
この目的を達成するために、変換された音声サンプルから音源話者の音声を効果的に抽出する表現学習モデルであるRevelioを開発した。
対象話者の音声入力に平行な表現成分を除去し,対象話者の影響を解消するために,revelioを念入りに設計した差分整流アルゴリズムを備える。
我々は,VQVC,VQVC+,AGAIN,BNEに変換された音声からの音声の復元におけるRevelioの有効性を評価するために,広範囲な実験を行った。
実験は、revelioが話者検証と識別システムによってソーススピーカーにトレース可能な音声プリントを再構築できることを検証する。
Revelioはまた、ジェンダー間の変換、見えない言語、電話ネットワークの下での堅牢なパフォーマンスを示している。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Who is Authentic Speaker [4.822108779108675]
音声変換は、操作された音声が偽りの目的で使用される場合、潜在的な社会的問題を引き起こす可能性がある。
音源の音響特性が大きく変化しているため、変換された音声から実際の話者が誰であるかを見つけることは大きな課題である。
本研究は, 話者の声が異なるターゲット音声に変換された場合でも, 音源話者からの特定の情報が持続するという仮定を用いて行った。
論文 参考訳(メタデータ) (2024-04-30T23:41:00Z) - Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement [41.837538440839815]
ゼロショット感情スタイル転送(ZEST)と呼ばれる効率的なアプローチを提案する。
提案システムは,音声を意味トークン,話者表現,感情埋め込みに分解して構築する。
提案したZESTモデルでは、ソースやターゲットオーディオから並列トレーニングデータやラベルを使わずに、ゼロショットの感情伝達能力を示す。
論文 参考訳(メタデータ) (2024-01-09T12:10:04Z) - DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice Conversion [0.0]
DeID-VCは、実際の話者を擬似話者に変換する話者識別システムである。
PSGの助けを借りて、DeID-VCは独自の擬似話者を話者レベルや発話レベルに割り当てることができる。
論文 参考訳(メタデータ) (2022-09-09T21:13:08Z) - Are disentangled representations all you need to build speaker
anonymization systems? [0.0]
音声信号には、話者のアイデンティティなど、多くの機密情報が含まれている。
話者匿名化は、音源話者の身元をそのまま残しながら、音声信号を変換し、音源話者の身元を除去することを目的としている。
論文 参考訳(メタデータ) (2022-08-22T07:51:47Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - Many-to-Many Voice Conversion based Feature Disentanglement using
Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。
本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。
多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文 参考訳(メタデータ) (2021-07-11T13:31:16Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。