論文の概要: Contextual RNN-T For Open Domain ASR
- arxiv url: http://arxiv.org/abs/2006.03411v2
- Date: Wed, 12 Aug 2020 23:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:43:26.023925
- Title: Contextual RNN-T For Open Domain ASR
- Title(参考訳): Open Domain ASRのためのコンテキストRNN-T
- Authors: Mahaveer Jain, Gil Keren, Jay Mahadeokar, Geoffrey Zweig, Florian
Metze, Yatharth Saraf
- Abstract要約: 自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステムの個々のコンポーネントを1つのニューラルネットワークに混ぜる。
これは優れた利点があり、ペアオーディオとテキストのみを使用してシステムをトレーニングすることを制限する。
このため、E2Eモデルは、エンティティ名などのトレーニング中に頻繁に見られることのない稀な単語を正しく認識することが困難になる傾向にある。
本稿では,RNN-Tモデルに改良を加えて,これらの名前付きエンティティワードの性能向上を目的としたメタデータテキストの追加を可能にする。
- 参考スコア(独自算出の注目度): 41.83409885125617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) systems for automatic speech recognition (ASR), such as RNN
Transducer (RNN-T) and Listen-Attend-Spell (LAS) blend the individual
components of a traditional hybrid ASR system - acoustic model, language model,
pronunciation model - into a single neural network. While this has some nice
advantages, it limits the system to be trained using only paired audio and
text. Because of this, E2E models tend to have difficulties with correctly
recognizing rare words that are not frequently seen during training, such as
entity names. In this paper, we propose modifications to the RNN-T model that
allow the model to utilize additional metadata text with the objective of
improving performance on these named entity words. We evaluate our approach on
an in-house dataset sampled from de-identified public social media videos,
which represent an open domain ASR task. By using an attention model and a
biasing model to leverage the contextual metadata that accompanies a video, we
observe a relative improvement of about 16% in Word Error Rate on Named
Entities (WER-NE) for videos with related metadata.
- Abstract(参考訳): RNN Transducer(RNN-T)やListen-Attend-Spell(LAS)のような自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステム(音響モデル、言語モデル、発音モデル)の個々のコンポーネントを1つのニューラルネットワークに混ぜる。
良い利点はいくつかあるが、ペアオーディオとテキストのみを使用してシステムをトレーニングする制限がある。
このため、E2Eモデルは、エンティティ名のようなトレーニング中に頻繁に見られない稀な単語を正しく認識することが困難である。
本稿では,RNN-Tモデルに対して,これらの名前付きエンティティ語の性能向上を目的としたメタデータテキストの追加を可能にする改良を提案する。
オープンドメインのASRタスクを表す、未確認のソーシャルメディアビデオからサンプリングした社内データセットに対するアプローチを評価した。
ビデオに付随する文脈メタデータを活用するために注意モデルとバイアスモデルを用いることで、関連するメタデータを持つビデオに対して、名前付きエンティティ (wer-ne) に対する単語誤り率の約16%の相対的改善を観察する。
関連論文リスト
- Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Integrating Text Inputs For Training and Adapting RNN Transducer ASR
Models [29.256853083988634]
本稿では,E2E ASRモデルのための新しいテキスト表現とトレーニングフレームワークを提案する。
トレーニングされたRNNトランスデューサ(RNN-T)モデルの内部LMコンポーネントは、テキストのみのデータに効果的に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-26T15:03:09Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文 参考訳(メタデータ) (2022-01-10T21:22:39Z) - Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network [0.0]
RNNトランスデューサモデルは,少量のテキストデータのみを用いて,新しいドメインに効果的に適応できることを示した。
本稿では,複数のASR評価タスクを用いて,目標タスクWERにおける相対的な10〜45%の利得が得られる方法を示す。
論文 参考訳(メタデータ) (2021-04-22T15:21:41Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z) - Contextualizing ASR Lattice Rescoring with Hybrid Pointer Network
Language Model [26.78064626111014]
自動音声認識システムを構築する際には,ビデオメタデータが提供する文脈情報を利用することができる。
まず、ビデオメタデータの文脈ベクトル表現を抽出するために注意に基づく手法を用い、これらの表現をニューラルネットワークモデルへの入力の一部として利用する。
次に,メタデータ中の単語の発生確率を明示的に補間する,ハイブリッドポインターネットワーク手法を提案する。
論文 参考訳(メタデータ) (2020-05-15T07:47:33Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。