論文の概要: Who is Authentic Speaker
- arxiv url: http://arxiv.org/abs/2405.00248v1
- Date: Tue, 30 Apr 2024 23:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 16:47:02.638577
- Title: Who is Authentic Speaker
- Title(参考訳): 正統な話し手は誰だ?
- Authors: Qiang Huang,
- Abstract要約: 音声変換は、操作された音声が偽りの目的で使用される場合、潜在的な社会的問題を引き起こす可能性がある。
音源の音響特性が大きく変化しているため、変換された音声から実際の話者が誰であるかを見つけることは大きな課題である。
本研究は, 話者の声が異なるターゲット音声に変換された場合でも, 音源話者からの特定の情報が持続するという仮定を用いて行った。
- 参考スコア(独自算出の注目度): 4.822108779108675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice conversion (VC) using deep learning technologies can now generate high quality one-to-many voices and thus has been used in some practical application fields, such as entertainment and healthcare. However, voice conversion can pose potential social issues when manipulated voices are employed for deceptive purposes. Moreover, it is a big challenge to find who are real speakers from the converted voices as the acoustic characteristics of source speakers are changed greatly. In this paper we attempt to explore the feasibility of identifying authentic speakers from converted voices. This study is conducted with the assumption that certain information from the source speakers persists, even when their voices undergo conversion into different target voices. Therefore our experiments are geared towards recognising the source speakers given the converted voices, which are generated by using FragmentVC on the randomly paired utterances from source and target speakers. To improve the robustness against converted voices, our recognition model is constructed by using hierarchical vector of locally aggregated descriptors (VLAD) in deep neural networks. The authentic speaker recognition system is mainly tested in two aspects, including the impact of quality of converted voices and the variations of VLAD. The dataset used in this work is VCTK corpus, where source and target speakers are randomly paired. The results obtained on the converted utterances show promising performances in recognising authentic speakers from converted voices.
- Abstract(参考訳): ディープラーニング技術を用いた音声変換(VC)は,高品質な1対多音声を生成できるようになった。
しかし、音声変換は、操作された音声が偽りの目的で使用される場合、潜在的に社会的な問題を引き起こす可能性がある。
また, 音源の音響特性が大きく変化しているため, 変換音声から実際の話者が誰であるかを判断することが大きな課題である。
本稿では,変換された音声から真正話者を特定することの実現可能性について検討する。
本研究は, 話者の声が異なるターゲット音声に変換された場合でも, 音源話者からの特定の情報が持続するという仮定を用いて行った。
そこで本実験では,FragmentVC を用いて音源と対象話者からランダムにペアリングした発話に対して生成した変換音声を音源話者に認識する実験を行った。
変換音声に対するロバスト性を改善するため,ディープニューラルネットワークにおける局所集約記述子(VLAD)の階層ベクトルを用いて認識モデルを構築した。
実際の話者認識システムは、変換された音声の品質の影響やVLADのバリエーションなど、主に2つの側面でテストされている。
この研究で使用されるデータセットはVCTKコーパスで、ソースとターゲットの話者をランダムにペアリングする。
変換された発話から得られた結果は、変換された音声から真の話者を認識する上で有望な性能を示す。
関連論文リスト
- Catch You and I Can: Revealing Source Voiceprint Against Voice
Conversion [0.0]
音声変換法で合成した音声から高クレジットで音源を復元する試みを初めて行った。
変換された音声サンプルから音源話者の音声プリントを効果的に抽出する表現学習モデルであるRevelioを開発した。
論文 参考訳(メタデータ) (2023-02-24T03:33:13Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention
VAE [8.144263449781967]
変分自動エンコーダ(VAE)は、音声の発声を話者識別と言語内容の潜伏埋め込みに分解する有効なニューラルネットワークアーキテクチャである。
本研究では,VAEのデコーダの適切な位置から,変換音声を生成する際に,非局所情報を組み込む自己アテンション層を付加した。
論文 参考訳(メタデータ) (2022-03-30T03:52:42Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - Many-to-Many Voice Conversion based Feature Disentanglement using
Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。
本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。
多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文 参考訳(メタデータ) (2021-07-11T13:31:16Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Defending Your Voice: Adversarial Attack on Voice Conversion [70.19396655909455]
音声変換に対する対人攻撃を最初に行う試みについて報告する。
音声を守らなければならない話者の発話に、人間の騒音が知覚できないことを紹介する。
その結果, 変換された発話の話者特性は, 防御された話者と明らかに異なることがわかった。
論文 参考訳(メタデータ) (2020-05-18T14:51:54Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Many-to-Many Voice Conversion using Conditional Cycle-Consistent
Adversarial Networks [3.1317409221921144]
我々は、CycleGANを話者にネットワークを条件付けすることで拡張する。
提案手法は,GAN(Generative Adversarial Network)を用いて複数話者間で多対多の音声変換を行うことができる。
提案手法は,各話者に対して複数のCycleGANを構築する場合と比較して,変換された音声の音質を損なうことなく,計算コストと空間コストを大幅に削減する。
論文 参考訳(メタデータ) (2020-02-15T06:03:36Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。