Fugu-MT 論文翻訳(概要): Efficient Incremental Text-to-Speech on GPUs

論文の概要: Efficient Incremental Text-to-Speech on GPUs

arxiv url: http://arxiv.org/abs/2211.13939v1
Date: Fri, 25 Nov 2022 07:43:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 18:59:02.689780
Title: Efficient Incremental Text-to-Speech on GPUs
Title（参考訳）: GPUにおける高能率インクリメンタルテキスト音声合成
Authors: Muyang Du, Chuan Liu, Jiaxing Qi, Junjie Lai
Abstract要約: Instant Request Pooling と Module-wise Dynamic を用いて,GPU 上でリアルタイムインクリメンタル TTS を実行する方法を提案する。提案手法は,1つのNVIDIA A10 GPU上で,100QPS以下で80ms未満の低レイテンシで高品質な音声を生成可能であることを示す。
参考スコア（独自算出の注目度）: 1.35346836945515
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Incremental text-to-speech, also known as streaming TTS, has been increasingly applied to online speech applications that require ultra-low response latency to provide an optimal user experience. However, most of the existing speech synthesis pipelines deployed on GPU are still non-incremental, which uncovers limitations in high-concurrency scenarios, especially when the pipeline is built with end-to-end neural network models. To address this issue, we present a highly efficient approach to perform real-time incremental TTS on GPUs with Instant Request Pooling and Module-wise Dynamic Batching. Experimental results demonstrate that the proposed method is capable of producing high-quality speech with a first-chunk latency lower than 80ms under 100 QPS on a single NVIDIA A10 GPU and significantly outperforms the non-incremental twin in both concurrency and latency. Our work reveals the effectiveness of high-performance incremental TTS on GPUs.
Abstract（参考訳）: ストリーミングTSとしても知られるインクリメンタルテキスト音声合成は、最適なユーザエクスペリエンスを提供するために、超低応答レイテンシを必要とするオンライン音声アプリケーションにますます適用されている。しかし、gpuにデプロイされた既存の音声合成パイプラインのほとんどはまだ非インクリメンタルであり、特にパイプラインがエンドツーエンドのニューラルネットワークモデルで構築されている場合、高頻度シナリオの制限を明らかにする。この問題に対処するため,Instant Request Pooling と Module-wise Dynamic Batching を用いて,GPU 上でリアルタイムインクリメンタル TTS を実行する方法を提案する。実験の結果,nvidia a10 gpuで100 qps以下で80ms未満のハイクオリティな音声を生成でき,並列性とレイテンシにおいて非インクリメンタル双生児を大きく上回ることがわかった。本研究は,GPUにおける高性能インクリメンタルTSの有効性を明らかにする。

関連論文リスト

Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。 PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文参考訳（メタデータ） (2025-07-09T07:27:18Z)
StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文参考訳（メタデータ） (2025-06-14T16:53:39Z)
Real-Time Execution of Action Chunking Flow Policies [49.1574468325115]
本稿では,アクションインタラクションシステムの非同期実行を可能にする新しい推論時アルゴリズムを提案する。これは、再トレーニングなしでボックスから実行する拡散またはVLAベースのシステムに適用できる。その結果、RTCは高速で、性能が高く、推論操作に対して一意に堅牢であることがわかった。
論文参考訳（メタデータ） (2025-06-09T01:01:59Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
Fastrack: Fast IO for Secure ML using GPU TEEs [7.758531952461963]
GPUベースのTrusted Execution Environments (TEE)はセキュアで高性能なソリューションを提供する。 CPU間通信のオーバーヘッドは性能を著しく損なう。本稿では、Nvidia H100 TEEプロトコルを分析し、3つの重要なオーバーヘッドを特定する。我々は,1)直接GPU TEE通信,2)並列化認証,3)PCI-e伝送による重複復号化を最適化したFastrackを提案する。
論文参考訳（メタデータ） (2024-10-20T01:00:33Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)
SPEED: Streaming Partition and Parallel Acceleration for Temporal Interaction Graph Embedding [22.68416593780539]
本稿では,時間的相互作用グラフ埋め込みのためのストリームエッジ分割と並列高速化という,新たなトレーニング手法を提案する。提案手法は,計算資源,計算時間,下流タスク性能のバランスが良好である。 7つの実世界のデータセットにまたがる実証的な検証は、トレーニング速度を最大19.29倍に向上させる可能性を実証している。
論文参考訳（メタデータ） (2023-08-27T15:11:44Z)
DFX: A Low-latency Multi-FPGA Appliance for Accelerating Transformer-based Text Generation [7.3619135783046]
我々は,低レイテンシかつ高スループットでGPT-2モデルエンドツーエンドを実行するマルチFPGA加速度アプライアンスであるDFXを提案する。提案するハードウェアアーキテクチャを,Xilinx Alveo U280 FPGA上で実装し,高帯域メモリ(HBM)の全チャネルと計算資源の最大数を利用する。
論文参考訳（メタデータ） (2022-09-22T05:59:59Z)
EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。 EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2022-05-29T20:07:23Z)
ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。 ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-05-14T21:16:21Z)
AxoNN: An asynchronous, message-driven parallel framework for extreme-scale deep learning [1.5301777464637454]
AxoNNは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、AxoNNはGPUメモリ使用量を4倍削減することができる。
論文参考訳（メタデータ） (2021-10-25T14:43:36Z)
EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文参考訳（メタデータ） (2020-11-28T19:21:47Z)
Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文参考訳（メタデータ） (2020-03-30T14:16:23Z)
Efficient Video Semantic Segmentation with Labels Propagation and Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。 i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文参考訳（メタデータ） (2019-12-26T11:45:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。