論文の概要: RWKVTTS: Yet another TTS based on RWKV-7
- arxiv url: http://arxiv.org/abs/2504.03289v1
- Date: Fri, 04 Apr 2025 09:17:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:47:29.967865
- Title: RWKVTTS: Yet another TTS based on RWKV-7
- Title(参考訳): RWKVTTS:RWKV-7に基づく別のTS
- Authors: Lin yueyu, Liu Xiao,
- Abstract要約: TTSアプリケーションに適した最先端のRNNアーキテクチャであるRWKV-7 citepeng2025rwkvを紹介する。
従来のトランスモデルとは異なり、RWKV-7はリカレントニューラルネットワークの強みを活用して計算効率とスケーラビリティを向上させる。
- 参考スコア(独自算出の注目度): 0.8397702677752039
- License:
- Abstract: Human-AI interaction thrives on intuitive and efficient interfaces, among which voice stands out as a particularly natural and accessible modality. Recent advancements in transformer-based text-to-speech (TTS) systems, such as Fish-Speech, CosyVoice, and MegaTTS 3, have delivered remarkable improvements in quality and realism, driving a significant evolution in the TTS domain. In this paper, we introduce RWKV-7 \cite{peng2025rwkv}, a cutting-edge RNN-based architecture tailored for TTS applications. Unlike traditional transformer models, RWKV-7 leverages the strengths of recurrent neural networks to achieve greater computational efficiency and scalability, while maintaining high-quality output. Our comprehensive benchmarks demonstrate that RWKV-7 outperforms transformer-based models across multiple key metrics, including synthesis speed, naturalness of speech, and resource efficiency. Furthermore, we explore its adaptability to diverse linguistic contexts and low-resource environments, showcasing its potential to democratize TTS technology. These findings position RWKV-7 as a powerful and innovative alternative, paving the way for more accessible and versatile voice synthesis solutions in real-world applications.Our code and weights are https://github.com/yynil/RWKVTTS, https://huggingface.co/spaces/RWKV-Red-Team
- Abstract(参考訳): 人間とAIの相互作用は直感的で効率的なインターフェースで成長し、音声は特に自然でアクセスしやすいモダリティとして際立っている。
Fish-Speech、CosyVoice、MegaTTS 3のようなトランスフォーマーベースのテキスト音声(TTS)システムの最近の進歩は、品質とリアリズムを著しく改善し、TSドメインにおいて大きな進化をもたらした。
本稿では,TS アプリケーションに適した最先端 RNN アーキテクチャである RWKV-7 \cite{peng2025rwkv} を紹介する。
従来のトランスモデルとは異なり、RWKV-7はリカレントニューラルネットワークの強みを活用して、高品質な出力を維持しながら、計算効率とスケーラビリティを向上させる。
我々の総合的なベンチマークでは、RWKV-7は、合成速度、音声の自然性、資源効率など、複数の重要な指標でトランスフォーマーベースのモデルよりも優れていることが示されている。
さらに,多様な言語環境や低リソース環境への適応性についても検討し,TTS技術の民主化の可能性を示す。
これらの発見は、RWKV-7を強力で革新的な代替手段として位置づけ、実世界のアプリケーションでよりアクセスしやすく、汎用的な音声合成ソリューションを実現する。
関連論文リスト
- Generative Video Semantic Communication via Multimodal Semantic Fusion with Large Model [55.71885688565501]
本稿では,高品質な映像再構成を実現するために,意味情報を抽出し,送信するスケーラブルなビデオ意味コミュニケーションフレームワークを提案する。
具体的には、送信機では、それぞれテキストと構造的意味論として機能するソースビデオから記述と他の条件信号を抽出する。
受信機では、拡散に基づくGenAI大モデルを用いて、ビデオの再構成のために複数のモーダルのセマンティクスを融合させる。
論文 参考訳(メタデータ) (2025-02-19T15:59:07Z) - A Survey of RWKV [16.618320854505786]
Receptance Weighted Key Value (RWKV)モデルは、Transformerアーキテクチャに代わる新しい選択肢を提供する。
自己アテンションに大きく依存する従来のトランスフォーマーとは異なり、RWKVは最小限の計算要求で長距離依存を捕捉する。
本稿では,このギャップを,RWKVアーキテクチャとその基本原理,および様々な応用の総合的なレビューとして埋めようとしている。
論文 参考訳(メタデータ) (2024-12-19T13:39:24Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Small-E: Small Language Model with Linear Attention for Efficient Speech Synthesis [7.865191493201841]
言語モデルを用いたテキスト音声合成(TTS)の最近の進歩は、自然性やゼロショット音声のクローニングの実現において顕著な能力を示した。
本稿では,リピートやスキップの問題を緩和する特別なクロスアテンション機構を導入し,トランスフォーマーを新たなアーキテクチャに置き換えることを提案する。
我々のアーキテクチャは、長いサンプルで効率的に訓練し、同等の大きさのベースラインに対して最先端のゼロショット音声クローンを実現することができる。
論文 参考訳(メタデータ) (2024-06-06T19:48:17Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Non-autoregressive Transformer-based End-to-end ASR using BERT [13.07939371864781]
本稿では、BERTに基づく変換器に基づくエンドツーエンド自動音声認識(ASR)モデルを提案する。
AISHELL-1データセットで実施された一連の実験は、競争力または優れた結果を示している。
論文 参考訳(メタデータ) (2021-04-10T16:22:17Z) - Improving Low Resource Code-switched ASR using Augmented Code-switched
TTS [29.30430160611224]
近年,コードスイッチによる音声認識システムの構築が注目されている。
エンドツーエンドシステムは大量のラベル付き音声を必要とする。
絶対単語誤り率(WER)を最大5%まで低下させるASR性能の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-10-12T09:15:12Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。