論文の概要: SpeechSplit 2.0: Unsupervised speech disentanglement for voice
conversion Without tuning autoencoder Bottlenecks
- arxiv url: http://arxiv.org/abs/2203.14156v1
- Date: Sat, 26 Mar 2022 21:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 17:29:18.078628
- Title: SpeechSplit 2.0: Unsupervised speech disentanglement for voice
conversion Without tuning autoencoder Bottlenecks
- Title(参考訳): SpeechSplit 2.0: 自動エンコーダをチューニングしない音声変換のための教師なし音声不絡
- Authors: Chak Ho Chan, Kaizhi Qian, Yang Zhang, Mark Hasegawa-Johnson
- Abstract要約: SpeechSplitは、複数のオートエンコーダを使用して、音声を内容、リズム、ピッチ、音色に切り離してアスペクト固有の音声変換を行うことができる。
本稿では,自動エンコーダの入力に対して,音声成分の情報の流れを拘束するSpeechSplit 2.0を提案する。
- 参考スコア(独自算出の注目度): 39.67320815230375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SpeechSplit can perform aspect-specific voice conversion by disentangling
speech into content, rhythm, pitch, and timbre using multiple autoencoders in
an unsupervised manner. However, SpeechSplit requires careful tuning of the
autoencoder bottlenecks, which can be time-consuming and less robust. This
paper proposes SpeechSplit 2.0, which constrains the information flow of the
speech component to be disentangled on the autoencoder input using efficient
signal processing methods instead of bottleneck tuning. Evaluation results show
that SpeechSplit 2.0 achieves comparable performance to SpeechSplit in speech
disentanglement and superior robustness to the bottleneck size variations. Our
code is available at https://github.com/biggytruck/SpeechSplit2.
- Abstract(参考訳): SpeechSplitは、教師なしの方法で複数のオートエンコーダを使用して、音声を内容、リズム、ピッチ、音色に切り離してアスペクト固有の音声変換を行う。
しかし、 speechsplit では、時間消費とロバスト性が低下するオートエンコーダボトルネックの注意深いチューニングが必要となる。
本稿では、ボトルネックチューニングではなく効率的な信号処理手法を用いて、音声成分の情報フローをオートエンコーダ入力に絡み合うように制約する speechsplit 2.0 を提案する。
評価結果から,SpeechSplit 2.0は,音声のゆがみやボトルネックサイズの変化に対する強靭性において,SpeechSplitに匹敵する性能を示した。
私たちのコードはhttps://github.com/biggytruck/SpeechSplit2で利用可能です。
関連論文リスト
- Efficient Streaming LLM for Speech Recognition [23.151980358518102]
SpeechLLM-XLは、ストリーミング音声認識のための線形スケーリングデコーダのみのモデルである。
訓練発話の10倍の長文発声に対して品質劣化を生じさせない。
論文 参考訳(メタデータ) (2024-10-02T01:54:35Z) - vec2wav 2.0: Advancing Voice Conversion via Discrete Token Vocoders [26.00129172101188]
音声変換(VC)を向上する新しい音声離散トークンボコーダ vec2wav 2.0 を提案する。
我々は、音声の自己教師型モデルからの離散トークンをソース音声のコンテンツ特徴として使用し、VCをインシデントヴォコーディングタスクとして扱う。
vec2wav 2.0はモノリンガルコーパスのみをトレーニングしても、競争力のあるクロスランガルVCを実現する。
論文 参考訳(メタデータ) (2024-09-03T15:41:07Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - NVC-Net: End-to-End Adversarial Voice Conversion [7.14505983271756]
NVC-Netは、任意の長さの生音声波形上で直接音声変換を行うエンド・ツー・エンドの敵対ネットワークである。
我々のモデルはNVIDIA V100 GPU上で3600kHz以上の速度でサンプルを生成することができ、最先端の手法よりも桁違いに高速である。
論文 参考訳(メタデータ) (2021-06-02T07:19:58Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z) - Unsupervised Speech Decomposition via Triple Information Bottleneck [63.55007056410914]
音声情報は、言語内容、音色、ピッチ、リズムの4つの構成要素に大別できる。
本稿では,3つの慎重に設計された情報ボトルネックを導入することで,音声をその4つの構成要素に盲目的に分解できるSpeechSplitを提案する。
論文 参考訳(メタデータ) (2020-04-23T16:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。