論文の概要: SPGISpeech: 5,000 hours of transcribed financial audio for fully
formatted end-to-end speech recognition
- arxiv url: http://arxiv.org/abs/2104.02014v2
- Date: Tue, 6 Apr 2021 04:22:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 10:58:48.828596
- Title: SPGISpeech: 5,000 hours of transcribed financial audio for fully
formatted end-to-end speech recognition
- Title(参考訳): SPGISpeech: 完全なエンドツーエンド音声認識のための5000時間分の財務音声
- Authors: Patrick K. O'Neill, Vitaly Lavrukhin, Somshubra Majumdar, Vahid
Noroozi, Yuekai Zhang, Oleksii Kuchaiev, Jagadeesh Balam, Yuliya Dovzhenko,
Keenan Freyberg, Michael D. Shulman, Boris Ginsburg, Shinji Watanabe, and
Georg Kucsko
- Abstract要約: 英語の音声テキスト(STT)機械学習タスクでは、音響モデルは伝統的に未解決のラテン文字で訓練される。
本稿では,対象ラベルに対する完全フォーマットテキストを用いたエンドツーエンドのニューラルトランスクリプションを提案する。
CER1.7を達成し、5000時間のコーパスで訓練されたベースラインのコンフォーマーベースのモデルを提示します。
- 参考スコア(独自算出の注目度): 38.96077127913159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the English speech-to-text (STT) machine learning task, acoustic models
are conventionally trained on uncased Latin characters, and any necessary
orthography (such as capitalization, punctuation, and denormalization of
non-standard words) is imputed by separate post-processing models. This adds
complexity and limits performance, as many formatting tasks benefit from
semantic information present in the acoustic signal but absent in
transcription. Here we propose a new STT task: end-to-end neural transcription
with fully formatted text for target labels. We present baseline
Conformer-based models trained on a corpus of 5,000 hours of professionally
transcribed earnings calls, achieving a CER of 1.7. As a contribution to the
STT research community, we release the corpus free for non-commercial use at
https://datasets.kensho.com/datasets/scribe.
- Abstract(参考訳): 英語音声テキスト(STT)機械学習タスクでは、音響モデルは従来、未解決のラテン文字で訓練されており、必要な正書法(大文字化、句読点、非標準単語の非正規化など)は別個の後処理モデルによって説明される。
多くのフォーマッティングタスクは音響信号に存在する意味情報から恩恵を受けるが、書き起こしには欠如している。
本稿では,対象ラベルに対する完全フォーマットテキストを用いたエンドツーエンドのニューラルトランスクリプションを提案する。
そこで本研究では,5,000時間におよぶコーパスで学習したベースライン・コンフォーメータに基づくモデルを提案する。
STT研究コミュニティへのコントリビューションとして、https://datasets.kensho.com/datasets/scribe.comで非商用利用用に無償でコーパスをリリースします。
関連論文リスト
- Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - T5lephone: Bridging Speech and Text Self-supervised Models for Spoken
Language Understanding via Phoneme level T5 [65.32642587901903]
我々は、異なるトークン化戦略を持つPLMが音声言語理解タスクにどのように影響するかを広範囲に研究する。
我々は、音素化されたテキストを使って事前訓練されたT5の変種であるT5lephoneを作成するためのアイデアを拡張した。
論文 参考訳(メタデータ) (2022-11-01T17:00:23Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Proteno: Text Normalization with Limited Data for Fast Deployment in
Text to Speech Systems [15.401574286479546]
新しい言語上でのテキスト音声(TTS)のテキスト正規化(TN)は困難である。
そこで本研究では,複数の言語で使用するデータのサイズを3%未満に抑えながら,複数の言語に対応可能な新しいアーキテクチャを提案する。
スペイン語とタミル語でTN for TTSの最初の成果を公開し、また、アプローチのパフォーマンスが以前の英語での作業に匹敵することを示した。
論文 参考訳(メタデータ) (2021-04-15T21:14:28Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。