論文の概要: fairseq S2T: Fast Speech-to-Text Modeling with fairseq
- arxiv url: http://arxiv.org/abs/2010.05171v2
- Date: Tue, 14 Jun 2022 14:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 13:51:26.212679
- Title: fairseq S2T: Fast Speech-to-Text Modeling with fairseq
- Title(参考訳): Fairseq S2T: Fairseqによる高速音声テキストモデリング
- Authors: Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro
Okhonko, Juan Pino
- Abstract要約: Fairseq S2Tは、S2TモデリングタスクのためのFairseq拡張である。
データ前処理からオフライン(オンライン)推論までのエンドツーエンドを提供する。
- 参考スコア(独自算出の注目度): 36.728277923926875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce fairseq S2T, a fairseq extension for speech-to-text (S2T)
modeling tasks such as end-to-end speech recognition and speech-to-text
translation. It follows fairseq's careful design for scalability and
extensibility. We provide end-to-end workflows from data pre-processing, model
training to offline (online) inference. We implement state-of-the-art
RNN-based, Transformer-based as well as Conformer-based models and open-source
detailed training recipes. Fairseq's machine translation models and language
models can be seamlessly integrated into S2T workflows for multi-task learning
or transfer learning. Fairseq S2T documentation and examples are available at
https://github.com/pytorch/fairseq/tree/master/examples/speech_to_text.
- Abstract(参考訳): 本稿では、音声からテキストへの変換やエンドツーエンドの音声認識といった、音声からテキストへのモデリングタスクのためのfairseq拡張であるFairseq S2Tを紹介する。
拡張性と拡張性に対するfairseqの注意深い設計に従っている。
データ前処理からモデルトレーニング、オフライン(オンライン)推論まで、エンドツーエンドのワークフローを提供します。
我々は、最先端のrnnベース、トランスフォーマーベース、およびコンフォーメータベースのモデル、およびオープンソースの詳細なトレーニングレシピを実装します。
Fairseqの機械翻訳モデルと言語モデルは、マルチタスク学習やトランスファー学習のためにS2Tワークフローにシームレスに統合できる。
fairseq s2tのドキュメントとサンプルはhttps://github.com/pytorch/fairseq/tree/master/examples/speech_to_textで入手できる。
関連論文リスト
- Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense
Video Captioning [93.6842670770983]
Vid2Seqは、ナレーション付きビデオで事前訓練されたマルチモーダルなシングルステージのイベントキャプションモデルである。
本研究では, 文境界を擬似事象境界として再構成することにより, ラベル付きナレーション付き動画を高密度映像キャプションに活用可能であることを示す。
YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、さまざまな高密度ビデオキャプションベンチマーク上でのテクニックの状態を改善する。
論文 参考訳(メタデータ) (2023-02-27T19:53:49Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - fairseq S^2: A Scalable and Integrable Speech Synthesis Toolkit [60.74922995613379]
fairseq S2は、音声合成のためのfairseq拡張である。
自動回帰(AR)および非AR音声合成モデルとその多話者モデルを実装した。
少ないキュレートデータで音声合成モデルの訓練を可能にするために、多くの前処理ツールが構築されている。
論文 参考訳(メタデータ) (2021-09-14T18:20:28Z) - Scalable Multilingual Frontend for TTS [4.1203601403593275]
本稿では、多くの言語に対応し、新しい言語に容易に拡張可能な、ニューラルテキスト・トゥ・スペーチ(TTS)フロントエンド作成の進捗について述べる。
文レベルでの正規化と発音の両方をS2S(Sequence-to-Sequence)モデルを用いて構築し,モデル化する。
言語に依存しない発音アプローチでは、辞書は使用しません。代わりに、文脈ベースの発音を含む全ての発音がS2Sモデルでキャプチャされます。
論文 参考訳(メタデータ) (2020-04-10T08:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。