Fugu-MT 論文翻訳(概要): Small-E: Small Language Model with Linear Attention for Efficient Speech Synthesis

論文の概要: Small-E: Small Language Model with Linear Attention for Efficient Speech Synthesis

arxiv url: http://arxiv.org/abs/2406.04467v2
Date: Tue, 11 Jun 2024 12:36:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 21:24:05.187740
Title: Small-E: Small Language Model with Linear Attention for Efficient Speech Synthesis
Title（参考訳）: 効率的な音声合成のための線形注意付き小型E:小言語モデル
Authors: Théodor Lemerle, Nicolas Obin, Axel Roebel,
Abstract要約: 言語モデルを用いたテキスト音声合成(TTS)の最近の進歩は、自然性やゼロショット音声のクローニングの実現において顕著な能力を示した。本稿では,リピートやスキップの問題を緩和する特別なクロスアテンション機構を導入し,トランスフォーマーを新たなアーキテクチャに置き換えることを提案する。我々のアーキテクチャは、長いサンプルで効率的に訓練し、同等の大きさのベースラインに対して最先端のゼロショット音声クローンを実現することができる。
参考スコア（独自算出の注目度）: 7.865191493201841
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in text-to-speech (TTS) powered by language models have showcased remarkable capabilities in achieving naturalness and zero-shot voice cloning. Notably, the decoder-only transformer is the prominent architecture in this domain. However, transformers face challenges stemming from their quadratic complexity in sequence length, impeding training on lengthy sequences and resource-constrained hardware. Moreover they lack specific inductive bias with regards to the monotonic nature of TTS alignments. In response, we propose to replace transformers with emerging recurrent architectures and introduce specialized cross-attention mechanisms for reducing repeating and skipping issues. Consequently our architecture can be efficiently trained on long samples and achieve state-of-the-art zero-shot voice cloning against baselines of comparable size. Our implementation and demos are available at https://github.com/theodorblackbird/lina-speech.
Abstract（参考訳）: 言語モデルを用いたテキスト音声合成(TTS)の最近の進歩は、自然性やゼロショット音声のクローニングの実現において顕著な能力を示した。注目すべきなのは、デコーダのみのトランスフォーマーが、この領域で目立ったアーキテクチャであることだ。しかし、トランスフォーマーは、シーケンス長の2次複雑さから生じる課題に直面し、長いシーケンスとリソース制約のあるハードウェアのトレーニングを妨げる。さらに、それらはTSアライメントの単調性に関して特定の帰納的バイアスを欠いている。そこで本研究では,リピートとスキップの問題を緩和する特別なクロスアテンション機構を導入し,トランスフォーマーを新たなアーキテクチャに置き換えることを提案する。その結果、我々のアーキテクチャは、長いサンプルで効率的に訓練でき、同等の大きさのベースラインに対して最先端のゼロショット音声クローンを実現することができる。私たちの実装とデモはhttps://github.com/theodorblackbird/lina-speech.comで公開されています。

関連論文リスト

Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-26T08:25:01Z)
Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。 PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文参考訳（メタデータ） (2025-04-14T16:03:21Z)
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文参考訳（メタデータ） (2025-02-26T08:22:00Z)
TTS-Transducer: End-to-End Speech Synthesis with Neural Transducer [6.1319363847980135]
TTS-Transducerは、音声モデルとニューラルトランスデューサの強みを活用する、テキストから音声への新たなアーキテクチャである。 TTS-Transducerは,現代のTSシステムに代わる,競争力があり堅牢な代替手段であることを示す。
論文参考訳（メタデータ） (2025-01-10T19:50:32Z)
Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech [9.982121768809854]
本稿では,ARトランスフォーマーを用いたエンコーダ・デコーダによる音声合成システムの改良について述べる。提案手法では,アライメント機構を用いて,相対的な位置情報を用いたクロスアテンション操作を行う。これらの改良を取り入れたVery Attentive Tacotronと呼ばれるシステムは、ベースラインT5ベースのTSシステムの自然性と表現性にマッチする。
論文参考訳（メタデータ） (2024-10-29T16:17:01Z)
Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文参考訳（メタデータ） (2024-08-28T16:30:41Z)
DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文参考訳（メタデータ） (2024-06-17T11:25:57Z)
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文参考訳（メタデータ） (2024-06-12T04:09:44Z)
Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。 GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文参考訳（メタデータ） (2024-06-03T04:16:30Z)
Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文参考訳（メタデータ） (2024-01-05T14:47:20Z)
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。 Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文参考訳（メタデータ） (2023-06-06T08:54:49Z)
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。 TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文参考訳（メタデータ） (2022-05-25T06:34:14Z)
Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文参考訳（メタデータ） (2020-08-07T11:02:07Z)
MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文参考訳（メタデータ） (2020-06-08T15:05:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。