論文の概要: Vocoder-free End-to-End Voice Conversion with Transformer Network
- arxiv url: http://arxiv.org/abs/2002.03808v1
- Date: Wed, 5 Feb 2020 06:19:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 21:30:58.944499
- Title: Vocoder-free End-to-End Voice Conversion with Transformer Network
- Title(参考訳): トランスフォーマネットワークを用いたボコーダフリーエンドツーエンド音声変換
- Authors: June-Woo Kim, Ho-Young Jung, Minho Lee
- Abstract要約: メル周波数フィルタバンク(MFB)に基づく手法は,MFBが特徴量が少ないため,生スペクトルと比較して学習音声の利点がある。
生のスペクトルと位相のみを用いて、明瞭な発音で異なるスタイルの音声を生成することができる。
本稿では,トランスネットワークを用いたヴォコーダフリーのエンドツーエンド音声変換手法を提案する。
- 参考スコア(独自算出の注目度): 5.5792083698526405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mel-frequency filter bank (MFB) based approaches have the advantage of
learning speech compared to raw spectrum since MFB has less feature size.
However, speech generator with MFB approaches require additional vocoder that
needs a huge amount of computation expense for training process. The additional
pre/post processing such as MFB and vocoder is not essential to convert real
human speech to others. It is possible to only use the raw spectrum along with
the phase to generate different style of voices with clear pronunciation. In
this regard, we propose a fast and effective approach to convert realistic
voices using raw spectrum in a parallel manner. Our transformer-based model
architecture which does not have any CNN or RNN layers has shown the advantage
of learning fast and solved the limitation of sequential computation of
conventional RNN. In this paper, we introduce a vocoder-free end-to-end voice
conversion method using transformer network. The presented conversion model can
also be used in speaker adaptation for speech recognition. Our approach can
convert the source voice to a target voice without using MFB and vocoder. We
can get an adapted MFB for speech recognition by multiplying the converted
magnitude with phase. We perform our voice conversion experiments on TIDIGITS
dataset using the metrics such as naturalness, similarity, and clarity with
mean opinion score, respectively.
- Abstract(参考訳): メル周波数フィルタバンク(MFB)に基づく手法は,MFBが特徴量が少ないため,生スペクトルと比較して学習音声の利点がある。
しかし、MFBアプローチによる音声生成には、トレーニングプロセスに膨大な計算コストを必要とするボコーダが必要となる。
MFBやvocoderのような追加のプレ/ポスト処理は、実際の人間の音声を他人に変換するのに必須ではない。
生のスペクトルと位相のみを使用して、明瞭な発音で異なるスタイルの音声を生成することができる。
そこで本研究では,生のスペクトルを用いた現実的な音声を並列に変換する手法を提案する。
CNN層やRNN層を持たないトランスフォーマーモデルアーキテクチャは,学習を高速化し,従来のRNNの逐次計算の制限を解消した。
本稿では,トランスネットワークを用いたヴォコーダフリーのエンドツーエンド音声変換手法を提案する。
提案する変換モデルは、音声認識のための話者適応にも使用できる。
本手法はmfbとvocoderを使わずに音源音声を目標音声に変換することができる。
変換されたマグニチュードと位相を乗じることで、音声認識に適合したmfbを得ることができる。
我々は, 自然性, 類似性, 明瞭度などの指標を用いて, tidigitsデータセット上で音声変換実験を行った。
関連論文リスト
- Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and
Textually Described Voices [28.998590651956153]
そこで本研究では, 音声変換, 言語間変換, 楽器変換, テキスト・ツー・ボイス変換の4つの非標準的応用について検討する。
kNN-VCは,声質変換や言語間変換において高い性能を維持していることがわかった。
楽器とテキスト・ツー・ボイス・コンバージョン・タスクでは、より複雑な結果が得られる。
論文 参考訳(メタデータ) (2023-10-12T08:00:25Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z) - Transformer Transducer: A Streamable Speech Recognition Model with
Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。
自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。
We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文 参考訳(メタデータ) (2020-02-07T00:04:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。