論文の概要: Efficient Incremental Text-to-Speech on GPUs
- arxiv url: http://arxiv.org/abs/2211.13939v1
- Date: Fri, 25 Nov 2022 07:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 18:59:02.689780
- Title: Efficient Incremental Text-to-Speech on GPUs
- Title(参考訳): GPUにおける高能率インクリメンタルテキスト音声合成
- Authors: Muyang Du, Chuan Liu, Jiaxing Qi, Junjie Lai
- Abstract要約: Instant Request Pooling と Module-wise Dynamic を用いて,GPU 上でリアルタイムインクリメンタル TTS を実行する方法を提案する。
提案手法は,1つのNVIDIA A10 GPU上で,100QPS以下で80ms未満の低レイテンシで高品質な音声を生成可能であることを示す。
- 参考スコア(独自算出の注目度): 1.35346836945515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incremental text-to-speech, also known as streaming TTS, has been
increasingly applied to online speech applications that require ultra-low
response latency to provide an optimal user experience. However, most of the
existing speech synthesis pipelines deployed on GPU are still non-incremental,
which uncovers limitations in high-concurrency scenarios, especially when the
pipeline is built with end-to-end neural network models. To address this issue,
we present a highly efficient approach to perform real-time incremental TTS on
GPUs with Instant Request Pooling and Module-wise Dynamic Batching.
Experimental results demonstrate that the proposed method is capable of
producing high-quality speech with a first-chunk latency lower than 80ms under
100 QPS on a single NVIDIA A10 GPU and significantly outperforms the
non-incremental twin in both concurrency and latency. Our work reveals the
effectiveness of high-performance incremental TTS on GPUs.
- Abstract(参考訳): ストリーミングTSとしても知られるインクリメンタルテキスト音声合成は、最適なユーザエクスペリエンスを提供するために、超低応答レイテンシを必要とするオンライン音声アプリケーションにますます適用されている。
しかし、gpuにデプロイされた既存の音声合成パイプラインのほとんどはまだ非インクリメンタルであり、特にパイプラインがエンドツーエンドのニューラルネットワークモデルで構築されている場合、高頻度シナリオの制限を明らかにする。
この問題に対処するため,Instant Request Pooling と Module-wise Dynamic Batching を用いて,GPU 上でリアルタイムインクリメンタル TTS を実行する方法を提案する。
実験の結果,nvidia a10 gpuで100 qps以下で80ms未満のハイクオリティな音声を生成でき,並列性とレイテンシにおいて非インクリメンタル双生児を大きく上回ることがわかった。
本研究は,GPUにおける高性能インクリメンタルTSの有効性を明らかにする。
関連論文リスト
- Fastrack: Fast IO for Secure ML using GPU TEEs [7.758531952461963]
GPUベースのTrusted Execution Environments (TEE)はセキュアで高性能なソリューションを提供する。
CPU間通信のオーバーヘッドは性能を著しく損なう。
本稿では、Nvidia H100 TEEプロトコルを分析し、3つの重要なオーバーヘッドを特定する。
我々は,1)直接GPU TEE通信,2)並列化認証,3)PCI-e伝送による重複復号化を最適化したFastrackを提案する。
論文 参考訳(メタデータ) (2024-10-20T01:00:33Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - SPEED: Streaming Partition and Parallel Acceleration for Temporal
Interaction Graph Embedding [22.68416593780539]
本稿では,時間的相互作用グラフ埋め込みのためのストリームエッジ分割と並列高速化という,新たなトレーニング手法を提案する。
提案手法は,計算資源,計算時間,下流タスク性能のバランスが良好である。
7つの実世界のデータセットにまたがる実証的な検証は、トレーニング速度を最大19.29倍に向上させる可能性を実証している。
論文 参考訳(メタデータ) (2023-08-27T15:11:44Z) - DFX: A Low-latency Multi-FPGA Appliance for Accelerating
Transformer-based Text Generation [7.3619135783046]
我々は,低レイテンシかつ高スループットでGPT-2モデルエンドツーエンドを実行するマルチFPGA加速度アプライアンスであるDFXを提案する。
提案するハードウェアアーキテクチャを,Xilinx Alveo U280 FPGA上で実装し,高帯域メモリ(HBM)の全チャネルと計算資源の最大数を利用する。
論文 参考訳(メタデータ) (2022-09-22T05:59:59Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - AxoNN: An asynchronous, message-driven parallel framework for
extreme-scale deep learning [1.5301777464637454]
AxoNNは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。
トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、AxoNNはGPUメモリ使用量を4倍削減することができる。
論文 参考訳(メタデータ) (2021-10-25T14:43:36Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。