論文の概要: FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion
- arxiv url: http://arxiv.org/abs/2210.15418v1
- Date: Thu, 27 Oct 2022 13:32:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 16:17:44.198559
- Title: FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion
- Title(参考訳): FreeVC: 高品質テキストフリーワンショット音声変換を目指す
- Authors: Jingyi li, Weiping tu, Li xiao
- Abstract要約: 我々は、高品質な波形再構成のためのVITSのエンドツーエンドフレームワークを採用する。
We disentangle content information by imposing an information bottleneck to WavLM features。
本稿では,抽出したコンテンツ情報の純度を向上させるために,分光器サイズに基づくデータ拡張を提案する。
- 参考スコア(独自算出の注目度): 17.274784447811665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice conversion (VC) can be achieved by first extracting source content
information and target speaker information, and then reconstructing waveform
with these information. However, current approaches normally either extract
dirty content information with speaker information leaked in, or demand a large
amount of annotated data for training. Besides, the quality of reconstructed
waveform can be degraded by the mismatch between conversion model and vocoder.
In this paper, we adopt the end-to-end framework of VITS for high-quality
waveform reconstruction, and propose strategies for clean content information
extraction without text annotation. We disentangle content information by
imposing an information bottleneck to WavLM features, and propose the
spectrogram-resize based data augmentation to improve the purity of extracted
content information. Experimental results show that the proposed method
outperforms the latest VC models trained with annotated data and has greater
robustness.
- Abstract(参考訳): 音声変換(vc)は、まずソースコンテンツ情報とターゲット話者情報を抽出し、それからこれらの情報で波形を再構成することで実現できる。
しかし、現在のアプローチは通常、話者情報が漏洩した汚いコンテンツ情報を抽出するか、トレーニングのために大量の注釈付きデータを要求する。
さらに、変換モデルとボコーダのミスマッチにより再構成波形の品質を劣化させることができる。
本稿では,高品質波形再構成のためのvitsのエンドツーエンドフレームワークを採用し,テキストアノテーションを使わずにクリーンなコンテンツ情報抽出手法を提案する。
我々は,wavlmの特徴に情報ボトルネックを課すことでコンテンツ情報の絡み合いを解消し,抽出されたコンテンツ情報の純度を向上させるために,スペクトログラムリサイズに基づくデータ拡張を提案する。
実験の結果,提案手法はアノテートデータを用いてトレーニングした最新のVCモデルよりも優れ,ロバスト性が高いことがわかった。
関連論文リスト
- RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - TGAVC: Improving Autoencoder Voice Conversion with Text-Guided and
Adversarial Training [32.35100329067037]
新しい音声変換フレームワーク $boldsymbol T$ext $boldsymbol G$uided $boldsymbol A$utoVC(TGAVC)
音声から抽出した推定内容の話者識別情報を除去するために、逆トレーニングを適用する。
AIShell-3データセットの実験により、提案モデルは変換された音声の自然性や類似性の観点からAutoVCより優れていることが示された。
論文 参考訳(メタデータ) (2022-08-08T10:33:36Z) - Towards Improved Zero-shot Voice Conversion with Conditional DSVAE [30.376259456529368]
ノンパラレル音声変換では,コンテンツと発話スタイルの情報の分離が不可欠である。
本稿では,事前モデリングの条件として,コンテンツバイアスを可能にする新しいモデルである条件付きDSVAEを提案する。
条件付きDSVAEから導出されるコンテンツ埋め込みが、ランダム性を克服し、より優れた音素分類精度を実現することを実証する。
論文 参考訳(メタデータ) (2022-05-11T01:19:42Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Identifying Introductions in Podcast Episodes from Automatically
Generated Transcripts [0.0]
400以上のポッドキャストエピソードの完全な書き起こしのデータセットを新たに構築する。
これらの紹介には、エピソードのトピック、ホスト、ゲストに関する情報が含まれている。
我々は、事前訓練されたBERTと異なる拡張戦略に基づいて、3つのTransformerモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-14T00:34:51Z) - StreamHover: Livestream Transcript Summarization and Annotation [54.41877742041611]
ライブストリームの書き起こしを注釈付けして要約するフレームワークであるStreamHoverを紹介します。
合計500時間以上のビデオに抽出的要約と抽象的要約を併用したベンチマークデータセットは,既存の注釈付きコーパスよりもはるかに大きい。
我々のモデルはより一般化され、強力なベースラインよりも性能が向上することを示す。
論文 参考訳(メタデータ) (2021-09-11T02:19:37Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。