論文の概要: Low-latency Real-time Voice Conversion on CPU
- arxiv url: http://arxiv.org/abs/2311.00873v1
- Date: Wed, 1 Nov 2023 21:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:29:17.709282
- Title: Low-latency Real-time Voice Conversion on CPU
- Title(参考訳): CPUにおける低レイテンシリアルタイム音声変換
- Authors: Konstantine Sadov, Matthew Hutter, Asara Near
- Abstract要約: 我々は、従来の音声操作と生成ニューラルネットワークのアーキテクチャを、リアルタイムな非対1音声変換のタスクに適用する。
私たちのモデルであるLLVCは、レイテンシ16kHzで20ms未満のレイテンシを持ち、コンシューマCPU上でのリアルタイムよりも2.8倍高速に動作します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We adapt the architectures of previous audio manipulation and generation
neural networks to the task of real-time any-to-one voice conversion. Our
resulting model, LLVC ($\textbf{L}$ow-latency $\textbf{L}$ow-resource
$\textbf{V}$oice $\textbf{C}$onversion), has a latency of under 20ms at a
bitrate of 16kHz and runs nearly 2.8x faster than real-time on a consumer CPU.
LLVC uses both a generative adversarial architecture as well as knowledge
distillation in order to attain this performance. To our knowledge LLVC
achieves both the lowest resource usage as well as the lowest latency of any
open-source voice conversion model. We provide open-source samples, code, and
pretrained model weights at https://github.com/KoeAI/LLVC.
- Abstract(参考訳): 我々は,従来の音声操作と生成ニューラルネットのアーキテクチャを,音声変換のリアルタイムタスクに適用する。
私たちのモデルであるLLVC ($\textbf{L}$ow-latency $\textbf{L}$ow-resource $\textbf{V}$oice $\textbf{C}$onversion)は、16kHzのビットレートで20ms未満のレイテンシを持ち、コンシューマCPU上でリアルタイムよりも2.8倍高速で動作する。
LLVCは、この性能を達成するために、生成的敵アーキテクチャと知識蒸留の両方を使用する。
我々の知る限り、LLVCはリソース使用率の低さと、オープンソース音声変換モデルの低レイテンシの両方を実現しています。
https://github.com/koeai/llvc.com/で、オープンソースのサンプル、コード、事前トレーニングされたモデルウェイトを提供します。
関連論文リスト
- Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time [90.96447932006822]
数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。
既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。
DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
論文 参考訳(メタデータ) (2023-10-26T05:01:09Z) - End-to-End Neural Network Compression via $\frac{\ell_1}{\ell_2}$
Regularized Latency Surrogates [20.31383698391339]
我々のアルゴリズムは多用途であり、プルーニング、低ランク因数分解、量子化など多くの一般的な圧縮手法で利用することができる。
高速で、シングルモデルトレーニングとほぼ同じ時間で実行される。
論文 参考訳(メタデータ) (2023-06-09T09:57:17Z) - Real-Time Target Sound Extraction [13.526450617545537]
実時間およびストリーミングターゲット音抽出を実現するためのニューラルネットワークモデルを提案する。
本稿では,エンコーダとして拡張因果畳み込みレイヤを積み重ねたエンコーダデコーダアーキテクチャであるWaveformerと,デコーダとしてトランスフォーマデコーダレイヤを提案する。
論文 参考訳(メタデータ) (2022-11-04T03:51:23Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z) - Emformer: Efficient Memory Transformer Based Acoustic Model For Low
Latency Streaming Speech Recognition [23.496223778642758]
長期履歴コンテキストを拡張メモリバンクに蒸留することで、自己注意の計算複雑性を低減する。
キャッシュ機構は、キーと値の計算を左のコンテキストの自己アテンションに保存する。
平均遅延960ミリ秒では、EmformerはテストクリーンでWER$2.50%、他で$5.62%となる。
論文 参考訳(メタデータ) (2020-10-21T04:38:09Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。