論文の概要: fairseq S2T: Fast Speech-to-Text Modeling with fairseq
- arxiv url: http://arxiv.org/abs/2010.05171v2
- Date: Tue, 14 Jun 2022 14:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 13:51:26.212679
- Title: fairseq S2T: Fast Speech-to-Text Modeling with fairseq
- Title(参考訳): Fairseq S2T: Fairseqによる高速音声テキストモデリング
- Authors: Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro
Okhonko, Juan Pino
- Abstract要約: Fairseq S2Tは、S2TモデリングタスクのためのFairseq拡張である。
データ前処理からオフライン(オンライン)推論までのエンドツーエンドを提供する。
- 参考スコア(独自算出の注目度): 36.728277923926875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce fairseq S2T, a fairseq extension for speech-to-text (S2T)
modeling tasks such as end-to-end speech recognition and speech-to-text
translation. It follows fairseq's careful design for scalability and
extensibility. We provide end-to-end workflows from data pre-processing, model
training to offline (online) inference. We implement state-of-the-art
RNN-based, Transformer-based as well as Conformer-based models and open-source
detailed training recipes. Fairseq's machine translation models and language
models can be seamlessly integrated into S2T workflows for multi-task learning
or transfer learning. Fairseq S2T documentation and examples are available at
https://github.com/pytorch/fairseq/tree/master/examples/speech_to_text.
- Abstract(参考訳): 本稿では、音声からテキストへの変換やエンドツーエンドの音声認識といった、音声からテキストへのモデリングタスクのためのfairseq拡張であるFairseq S2Tを紹介する。
拡張性と拡張性に対するfairseqの注意深い設計に従っている。
データ前処理からモデルトレーニング、オフライン(オンライン)推論まで、エンドツーエンドのワークフローを提供します。
我々は、最先端のrnnベース、トランスフォーマーベース、およびコンフォーメータベースのモデル、およびオープンソースの詳細なトレーニングレシピを実装します。
Fairseqの機械翻訳モデルと言語モデルは、マルチタスク学習やトランスファー学習のためにS2Tワークフローにシームレスに統合できる。
fairseq s2tのドキュメントとサンプルはhttps://github.com/pytorch/fairseq/tree/master/examples/speech_to_textで入手できる。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - fairseq S^2: A Scalable and Integrable Speech Synthesis Toolkit [60.74922995613379]
fairseq S2は、音声合成のためのfairseq拡張である。
自動回帰(AR)および非AR音声合成モデルとその多話者モデルを実装した。
少ないキュレートデータで音声合成モデルの訓練を可能にするために、多くの前処理ツールが構築されている。
論文 参考訳(メタデータ) (2021-09-14T18:20:28Z) - Scalable Multilingual Frontend for TTS [4.1203601403593275]
本稿では、多くの言語に対応し、新しい言語に容易に拡張可能な、ニューラルテキスト・トゥ・スペーチ(TTS)フロントエンド作成の進捗について述べる。
文レベルでの正規化と発音の両方をS2S(Sequence-to-Sequence)モデルを用いて構築し,モデル化する。
言語に依存しない発音アプローチでは、辞書は使用しません。代わりに、文脈ベースの発音を含む全ての発音がS2Sモデルでキャプチャされます。
論文 参考訳(メタデータ) (2020-04-10T08:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。