Fugu-MT 論文翻訳(概要): LightSpeech: Lightweight and Fast Text to Speech with Neural Architecture Search

論文の概要: LightSpeech: Lightweight and Fast Text to Speech with Neural Architecture Search

arxiv url: http://arxiv.org/abs/2102.04040v1
Date: Mon, 8 Feb 2021 07:45:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-09 15:54:22.821334
Title: LightSpeech: Lightweight and Fast Text to Speech with Neural Architecture Search
Title（参考訳）: LightSpeech: ニューラルネットワークによる軽量で高速な音声テキスト検索
Authors: Renqian Luo, Xu Tan, Rui Wang, Tao Qin, Jinzhu Li, Sheng Zhao, Enhong Chen, Tie-Yan Liu
Abstract要約: 我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
参考スコア（独自算出の注目度）: 127.56834100382878
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text to speech (TTS) has been broadly used to synthesize natural and intelligible speech in different scenarios. Deploying TTS in various end devices such as mobile phones or embedded devices requires extremely small memory usage and inference latency. While non-autoregressive TTS models such as FastSpeech have achieved significantly faster inference speed than autoregressive models, their model size and inference latency are still large for the deployment in resource constrained devices. In this paper, we propose LightSpeech, which leverages neural architecture search~(NAS) to automatically design more lightweight and efficient models based on FastSpeech. We first profile the components of current FastSpeech model and carefully design a novel search space containing various lightweight and potentially effective architectures. Then NAS is utilized to automatically discover well performing architectures within the search space. Experiments show that the model discovered by our method achieves 15x model compression ratio and 6.5x inference speedup on CPU with on par voice quality. Audio demos are provided at https://speechresearch.github.io/lightspeech.
Abstract（参考訳）: text to speech (tts) は自然言語と理解可能な音声を異なるシナリオで合成するために広く使われている。携帯電話や組み込みデバイスなど、さまざまなエンドデバイスにTSをデプロイするには、メモリ使用量と推論レイテンシが極めて少なくなる。 FastSpeechのような非自己回帰型TSSモデルは、自己回帰型モデルよりもはるかに高速な推論速度を達成したが、そのモデルサイズと推論遅延は、リソース制約されたデバイスへのデプロイにおいて依然として大きい。本稿では,FastSpeechに基づくより軽量で効率的なモデルの自動設計にニューラルアーキテクチャサーチ~(NAS)を利用するLightSpeechを提案する。まず、現在のfastspeechモデルのコンポーネントをプロファイルし、様々な軽量で潜在的に有効なアーキテクチャを含む新しい検索空間を慎重に設計する。そして、NASを用いて検索空間内の優れたアーキテクチャを自動的に発見する。実験の結果,本手法で発見されたモデルが15倍圧縮比と6.5倍推定速度を達成した。オーディオデモはhttps://speechresearch.github.io/lightspeechで提供されている。

関連論文リスト

Efficient Interleaved Speech Modeling through Knowledge Distillation [5.389972857470079]
現在の音声言語モデルは、多くのデプロイメント環境のサイズやレイテンシの制約を超える。我々は, 層状蒸留, 隠れ状態のマッチング, 注意マップ, 軟化ロジットにより, コンパクトで表現力豊かな音声生成モデルを構築した。 TinyWave は (i) 音声または表現的トークンと (ii) 混合音声テキスト継続を用いた音声のみの生成をサポートする。
論文参考訳（メタデータ） (2025-06-30T09:47:37Z)
Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [70.25062476543091]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。 MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。 4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文参考訳（メタデータ） (2025-05-06T17:59:53Z)
Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。 PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文参考訳（メタデータ） (2025-04-14T16:03:21Z)
Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
SpeechSSMは、テキスト中間子なしで1つの復号セッションで長い形式の音声を学習し、サンプリングする。新しい埋め込みベースとLLM-judgedメトリクス、長さと時間による品質測定、長文音声処理と生成のための新しいベンチマークであるLibriSpeech-Long。
論文参考訳（メタデータ） (2024-12-24T18:56:46Z)
Lina-Speech: Gated Linear Attention is a Fast and Parameter-Efficient Learner for text-to-speech synthesis [7.2129341612013285]
従来の自己注意機構を,Gated Linear Attention (GLA)のような新たな再帰的アーキテクチャに置き換えるモデルであるLina-Speechを紹介する。このアプローチは高速で、デプロイが容易で、データセットのサイズが3分から15分に及ぶ場合に、微調整されたベースラインに匹敵するパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-30T04:50:40Z)
SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。 SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-08-25T17:07:39Z)
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文参考訳（メタデータ） (2023-08-14T01:01:19Z)
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。 Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文参考訳（メタデータ） (2023-06-06T08:54:49Z)
EfficientSpeech: An On-Device Text to Speech Model [15.118059441365343]
State of the Art (SOTA) Neural Text to Speech (TTS)モデルでは、自然な音声合成音声を生成することができる。本研究では,ARM CPU上で音声をリアルタイムに合成するEfficientSpeechという,効率的なニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-05-23T10:28:41Z)
On-device neural speech synthesis [3.716815259884143]
TacotronとWaveRNNは、完全なニューラルネットワークベースのTSシステムの構築を可能にした。我々は、これらのモデルをGPUサーバやモバイルデバイスにデプロイするための重要なモデリング改善と最適化戦略を示す。提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで,高品質な24kHz音声を生成することができる。
論文参考訳（メタデータ） (2021-09-17T18:31:31Z)
VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文参考訳（メタデータ） (2020-09-09T14:26:56Z)
FastSpeech 2: Fast and High-Quality End-to-End Text to Speech [189.05831125931053]
FastSpeechのような非自己回帰テキスト・トゥ・スピーチ(TTS)モデルは、同等の品質の以前の自己回帰モデルよりもはるかに高速に音声を合成することができる。 FastSpeechには,(1)教師-学生蒸留パイプラインが複雑で時間を要すること,(2)教師モデルから抽出した期間が十分正確でないこと,(2)教師モデルから抽出したターゲットメル-スペクトログラムが情報損失に悩まされていること,など,いくつかの欠点がある。我々は,教師の簡易な出力ではなく,接地目標でモデルを直接訓練するFastSpeech 2を提案する。
論文参考訳（メタデータ） (2020-06-08T13:05:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。