論文の概要: Modular Hybrid Autoregressive Transducer
- arxiv url: http://arxiv.org/abs/2210.17049v1
- Date: Mon, 31 Oct 2022 03:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:04:11.167804
- Title: Modular Hybrid Autoregressive Transducer
- Title(参考訳): モジュラーハイブリッド自己回帰トランスデューサ
- Authors: Zhong Meng, Tongzhou Chen, Rohit Prabhavalkar, Yu Zhang, Gary Wang,
Kartik Audhkhasi, Jesse Emond, Trevor Strohman, Bhuvana Ramabhadran, W. Ronny
Huang, Ehsan Variani, Yinghui Huang, Pedro J. Moreno
- Abstract要約: トランスデューサモデルのテキストのみの適応は、エンドツーエンド音声認識では依然として困難である。
ラベルとブランクデコーダを構造的に分離したモジュール型ハイブリッド自己回帰トランスデューサを提案する。
Googleの大規模生産データでは、100B文に適合したマルチドメインのMHATが、LM融合なしでWERを最大12.4%削減する。
- 参考スコア(独自算出の注目度): 51.29870462504761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-only adaptation of a transducer model remains challenging for end-to-end
speech recognition since the transducer has no clearly separated acoustic model
(AM), language model (LM) or blank model. In this work, we propose a modular
hybrid autoregressive transducer (MHAT) that has structurally separated label
and blank decoders to predict label and blank distributions, respectively,
along with a shared acoustic encoder. The encoder and label decoder outputs are
directly projected to AM and internal LM scores and then added to compute label
posteriors. We train MHAT with an internal LM loss and a HAT loss to ensure
that its internal LM becomes a standalone neural LM that can be effectively
adapted to text. Moreover, text adaptation of MHAT fosters a much better LM
fusion than internal LM subtraction-based methods. On Google's large-scale
production data, a multi-domain MHAT adapted with 100B sentences achieves
relative WER reductions of up to 12.4% without LM fusion and 21.5% with LM
fusion from 400K-hour trained HAT.
- Abstract(参考訳): トランスデューサは明瞭に分離された音響モデル(am)、言語モデル(lm)、ブランクモデルを持たないため、トランスデューサモデルのテキストのみの適応は、エンドツーエンド音声認識において依然として困難である。
本研究では,共用音響エンコーダと共に,ラベルとブランクの分布をそれぞれ予測するために,ラベルとブランクデコーダを構造的に分離したモジュラーハイブリッド自己回帰トランスデューサ(mhat)を提案する。
エンコーダおよびラベルデコーダ出力は、amおよび内部lmスコアに直接投影され、後段のラベル計算に付加される。
我々は、内部のLM損失とHAT損失でMHATを訓練し、内部のLMがテキストに効果的に適用可能なスタンドアロンのニューラルなLMになることを保証する。
さらに、MHATのテキスト適応は、内部のLM減算法よりもはるかに優れたLM融合を促進する。
Googleの大規模生産データでは、100B文に適合したマルチドメインのMHATが、LM融合なしでWERを最大12.4%削減し、400K時間訓練されたHATからのLM融合で21.5%を達成する。
関連論文リスト
- It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Internal Language Model Adaptation with Text-Only Data for End-to-End
Speech Recognition [80.32546870220979]
テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。
ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。
30K時間トレーニングされたトランスデューサモデルを用いて実験した結果、ILMAは最大34.9%の単語誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-10-06T23:03:29Z) - Investigating Methods to Improve Language Model Integration for
Attention-based Encoder-Decoder ASR Models [107.86965028729517]
注意ベースのエンコーダデコーダ(AED)モデルは、トレーニング転写から暗黙的な内部言語モデル(ILM)を学ぶ。
AEDモデルから直接ILMを推定する新しい手法をいくつか提案する。
論文 参考訳(メタデータ) (2021-04-12T15:16:03Z) - Librispeech Transducer Model with Internal Language Model Prior
Correction [58.579080710256704]
外部言語モデル (LM) を浅い融合で含み、推定された内部 LM を減算する変種を研究する。
内部LMの減算は、通常の浅い融合よりも14%以上の相対的な改善をもたらします。
我々のトランスデューサは、非ブランクラベルに対して異なる確率分布を持つ。
論文 参考訳(メタデータ) (2021-04-07T09:18:56Z) - Internal Language Model Training for Domain-Adaptive End-to-End Speech
Recognition [83.739317674302]
内部言語モデル推定(ILME)法は、外部言語モデルと自動音声認識システムとの連携を改善するために用いられる。
内部LM損失を最小限に抑えるための内部LMトレーニング(ILMT)手法を提案する。
ILMTは、ESRの精度を犠牲にすることなく、既存のコンポーネント内でスタンドアロンのLMを形成するようE2Eモデルを奨励している。
論文 参考訳(メタデータ) (2021-02-02T08:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。