論文の概要: ALO-VC: Any-to-any Low-latency One-shot Voice Conversion
- arxiv url: http://arxiv.org/abs/2306.01100v1
- Date: Thu, 1 Jun 2023 19:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 18:12:32.783027
- Title: ALO-VC: Any-to-any Low-latency One-shot Voice Conversion
- Title(参考訳): ALO-VC:低遅延音声変換
- Authors: Bohan Wang, Damien Ronssin, Milos Cernak
- Abstract要約: ALO-VCは、非パラレル低遅延1ショット音声後部グラフに基づく音声変換法である。
ALO-VCは、ターゲット話者からの1つの発声のみを使用して、任意の音声変換が可能で、将来のルックアヘッドは47.5msである。
本稿では,事前学習した話者エンコーダを使用するNN-VC-Rと,ECAPA-TD話者エンコーダを用いた性能改善を行うALO-VC-Eの2つのシステムバージョンを紹介する。
- 参考スコア(独自算出の注目度): 20.701163031012513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents ALO-VC, a non-parallel low-latency one-shot phonetic
posteriorgrams (PPGs) based voice conversion method. ALO-VC enables any-to-any
voice conversion using only one utterance from the target speaker, with only
47.5 ms future look-ahead. The proposed hybrid signal processing and machine
learning pipeline combines a pre-trained speaker encoder, a pitch predictor to
predict the converted speech's prosody, and positional encoding to convey the
phoneme's location information. We introduce two system versions: ALO-VC-R,
which uses a pre-trained d-vector speaker encoder, and ALO-VC-E, which improves
performance using the ECAPA-TDNN speaker encoder. The experimental results
demonstrate both ALO-VC-R and ALO-VC-E can achieve comparable performance to
non-causal baseline systems on the VCTK dataset and two out-of-domain datasets.
Furthermore, both proposed systems can be deployed on a single CPU core with 55
ms latency and 0.78 real-time factor. Our demo is available online.
- Abstract(参考訳): 本稿では,非並列低遅延1ショット音声後部グラフ(PPG)に基づく音声変換手法であるALO-VCを提案する。
ALO-VCは、ターゲット話者からの1つの発声のみを使用して、任意の音声変換を可能にする。
提案するハイブリッド信号処理と機械学習パイプラインは、事前学習された話者エンコーダと、変換音声の韻律を予測するピッチ予測器と、音素の位置情報を伝える位置符号化を組み合わせたものである。
本稿では,事前学習したd-vector話者エンコーダを使用するALO-VC-Rと,ECAPA-TDNN話者エンコーダを用いた性能改善を行うALO-VC-Eの2つのシステムバージョンを紹介する。
ALO-VC-RとALO-VC-Eの両方が、VCTKデータセットと2つの外部データセットの非因果ベースラインシステムに匹敵する性能を達成できることを示す実験結果が得られた。
さらに、どちらのシステムも、55msのレイテンシと 0.78リアルタイムファクタを持つ単一のcpuコアにデプロイできる。
デモはオンラインで公開しています。
関連論文リスト
- Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - Exploring the Use of an Unsupervised Autoregressive Model as a Shared
Encoder for Text-Dependent Speaker Verification [22.894402178709136]
本稿では,タスク固有のデコーダを用いた共有エンコーダを用いたテキスト依存型自動話者検証(TD-ASV)を提案する。
提案手法は,大規模でラベルのないデータリッチなドメインから活用でき,下流タスクとは無関係に音声パターンを学習できることを示す。
論文 参考訳(メタデータ) (2020-08-08T22:47:10Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。