論文の概要: Knowledge Transfer from Large-scale Pretrained Language Models to
End-to-end Speech Recognizers
- arxiv url: http://arxiv.org/abs/2202.07894v1
- Date: Wed, 16 Feb 2022 07:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 23:57:44.307115
- Title: Knowledge Transfer from Large-scale Pretrained Language Models to
End-to-end Speech Recognizers
- Title(参考訳): 大規模事前学習言語モデルからエンドツーエンド音声認識への知識伝達
- Authors: Yotaro Kubo, Shigeki Karita, Michiel Bacchiani
- Abstract要約: エンドツーエンド音声認識の訓練には、常に書き起こされた発話が必要である。
本稿では,テキストのみのデータで事前学習可能な言語モデルニューラルネットワークから知識を伝達することで,この問題を緩和する手法を提案する。
- 参考スコア(独自算出の注目度): 13.372686722688325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end speech recognition is a promising technology for enabling compact
automatic speech recognition (ASR) systems since it can unify the acoustic and
language model into a single neural network. However, as a drawback, training
of end-to-end speech recognizers always requires transcribed utterances. Since
end-to-end models are also known to be severely data hungry, this constraint is
crucial especially because obtaining transcribed utterances is costly and can
possibly be impractical or impossible. This paper proposes a method for
alleviating this issue by transferring knowledge from a language model neural
network that can be pretrained with text-only data. Specifically, this paper
attempts to transfer semantic knowledge acquired in embedding vectors of
large-scale language models. Since embedding vectors can be assumed as implicit
representations of linguistic information such as part-of-speech, intent, and
so on, those are also expected to be useful modeling cues for ASR decoders.
This paper extends two types of ASR decoders, attention-based decoders and
neural transducers, by modifying training loss functions to include embedding
prediction terms. The proposed systems were shown to be effective for error
rate reduction without incurring extra computational costs in the decoding
phase.
- Abstract(参考訳): エンドツーエンド音声認識は、音響モデルと言語モデルを単一のニューラルネットワークに統合できるため、コンパクトな自動音声認識(asr)システムを実現する有望な技術である。
しかし、欠点として、エンドツーエンドの音声認識者の訓練には、常に書き起こされた発話が必要である。
エンド・ツー・エンドのモデルはひどいデータ空腹であることが知られているため、この制約は特に、転写された発話の入手にコストがかかり、実用的または不可能な可能性があるため重要である。
本稿では,テキストのみのデータで事前学習可能な言語モデルニューラルネットワークから知識を伝達することで,この問題を緩和する手法を提案する。
具体的には,大規模言語モデルの埋め込みベクトルから得られた意味知識の伝達を試みる。
埋め込みベクトルは、音声の一部や意図などの言語情報の暗黙的な表現とみなすことができるため、ASRデコーダのモデリングにも有用であることが期待されている。
本稿では,アテンションベースのデコーダとニューラルトランスデューサの2種類のASRデコーダを,埋め込み予測項を含むトレーニング損失関数を変更することで拡張する。
提案システムは,復号フェーズにおいて余分な計算コストを発生させることなく,誤り率低減に有効であることがわかった。
関連論文リスト
- Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Speech recognition for air traffic control via feature learning and
end-to-end training [8.755785876395363]
本稿では,特徴学習に基づく新しい自動音声認識(ASR)システムと,航空交通制御(ATC)システムのためのエンドツーエンドトレーニング手順を提案する。
提案モデルでは、特徴学習ブロック、リカレントニューラルネットワーク(RNN)、コネクショニストの時間的分類損失を統合する。
生波形から表現を学習する能力により、提案したモデルは完全なエンドツーエンドで最適化できる。
論文 参考訳(メタデータ) (2021-11-04T06:38:21Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - A review of on-device fully neural end-to-end automatic speech
recognition algorithms [20.469868150587075]
デバイス上での各種自動音声認識アルゴリズムとその最適化手法について検討する。
完全ニューラルネットワークのエンドツーエンド音声認識アルゴリズムが提案されている。
従来のアルゴリズムと比較して,それらの構造,性能,利点を広く論じる。
論文 参考訳(メタデータ) (2020-12-14T22:18:08Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - End-to-end speech-to-dialog-act recognition [38.58540444573232]
本稿では,音声を直接ダイアログに変換するエンド・ツー・エンドのモデルを提案する。
提案モデルでは,対話行動認識ネットワークは,その潜在層において,音声から単語へのASRモデルと結合する。
ネットワーク全体がエンドツーエンドで微調整されている。
論文 参考訳(メタデータ) (2020-04-23T18:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。