論文の概要: Leveraging supplementary text data to kick-start automatic speech
recognition system development with limited transcriptions
- arxiv url: http://arxiv.org/abs/2302.04975v1
- Date: Thu, 9 Feb 2023 23:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 16:55:57.585557
- Title: Leveraging supplementary text data to kick-start automatic speech
recognition system development with limited transcriptions
- Title(参考訳): 書き起こし制限付き自動音声認識システムの開発に補足的テキストデータを活用する
- Authors: Nay San, Martijn Bartelds, Blaine Billings, Ella de Falco, Hendi
Feriza, Johan Safri, Wawan Sahrozi, Ben Foley, Bradley McDonnell, Dan
Jurafsky
- Abstract要約: 最近の研究では、10分間の書き起こしだけで自動音声認識モデル(ASR)を微調整できる可能性が示唆されている。
我々は,ASR復号化を可能語に制約する辞書を作成するために,異なる量のテキストデータを使用することについて検討する。
すべての言語に対して,レキシコンのみを用いることで,ASRの性能は向上しなかった。
- 参考スコア(独自算出の注目度): 14.966282057980543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research using pre-trained transformer models suggests that just 10
minutes of transcribed speech may be enough to fine-tune such a model for
automatic speech recognition (ASR) -- at least if we can also leverage vast
amounts of text data (803 million tokens). But is that much text data
necessary? We study the use of different amounts of text data, both for
creating a lexicon that constrains ASR decoding to possible words (e.g. *dogz
vs. dogs), and for training larger language models that bias the system toward
probable word sequences (e.g. too dogs vs. two dogs). We perform experiments
using 10 minutes of transcribed speech from English (for replicating prior
work) and two additional pairs of languages differing in the availability of
supplemental text data: Gronings and Frisian (~7.5M token corpora available),
and Besemah and Nasal (only small lexica available). For all languages, we
found that using only a lexicon did not appreciably improve ASR performance.
For Gronings and Frisian, we found that lexica and language models derived from
'novel-length' 80k token subcorpora reduced the word error rate (WER) to 39% on
average. Our findings suggest that where a text corpus in the upper tens of
thousands of tokens or more is available, fine-tuning a transformer model with
just tens of minutes of transcribed speech holds some promise towards obtaining
human-correctable transcriptions near the 30% WER rule-of-thumb.
- Abstract(参考訳): 事前訓練されたトランスフォーマーモデルを用いた最近の研究は、書き起こされた音声の10分だけで、そのような自動音声認識(ASR)のモデルを微調整できるかもしれないことを示唆している。
しかし、その大量のテキストデータは必要か?
我々は,asrのデコードに可能な単語(例えば *dogz 対 犬)を制約するレキシコンの作成と,システムを確率的な単語シーケンス(例: too dog 対 2 dog)に偏る大きな言語モデルのトレーニングの両方において,異なる量のテキストデータの使用について検討した。
我々は、英語から10分間の書き起こし音声(先行作業の複製のために)と補足テキストデータ(GroningsとFrisian(-7.5Mトークンコーパスが利用可能)とBesemahとNasal(小さなレキシカのみが利用可能)の可用性が異なる2つの追加言語を用いて実験を行う。
すべての言語に対して,レキシコンのみを用いることで,ASRの性能は向上しなかった。
Gronings と Frisian の場合,'novel-length' 80k トークンサブコーパスから派生した語彙モデルと言語モデルにより,単語誤り率 (WER) が平均で39%に減少した。
以上の結果から,数万以上のトークンにテキストコーパスが組み込まれている場合,数分間の音声の書き起こしのみを微調整することで,30%のWER規則近傍で人間の修正可能な転写を得ることが可能となる。
関連論文リスト
- Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。