論文の概要: Multi-blank Transducers for Speech Recognition
- arxiv url: http://arxiv.org/abs/2211.03541v2
- Date: Thu, 11 Apr 2024 22:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 20:25:38.995938
- Title: Multi-blank Transducers for Speech Recognition
- Title(参考訳): 音声認識のためのマルチブランク変換器
- Authors: Hainan Xu, Fei Jia, Somshubra Majumdar, Shinji Watanabe, Boris Ginsburg,
- Abstract要約: 提案手法では,出力時に2つ以上の入力フレームを消費する空白記号を新たに導入する。
付加記号を大きなブランク、マルチブランクRNN-Tと呼ぶ。
複数の言語とデータセットの実験により、マルチブランクRNN-T法は、相対速度が+90%/+139%以上になることを示した。
- 参考スコア(独自算出の注目度): 49.6154259349501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a modification to RNN-Transducer (RNN-T) models for automatic speech recognition (ASR). In standard RNN-T, the emission of a blank symbol consumes exactly one input frame; in our proposed method, we introduce additional blank symbols, which consume two or more input frames when emitted. We refer to the added symbols as big blanks, and the method multi-blank RNN-T. For training multi-blank RNN-Ts, we propose a novel logit under-normalization method in order to prioritize emissions of big blanks. With experiments on multiple languages and datasets, we show that multi-blank RNN-T methods could bring relative speedups of over +90%/+139% to model inference for English Librispeech and German Multilingual Librispeech datasets, respectively. The multi-blank RNN-T method also improves ASR accuracy consistently. We will release our implementation of the method in the NeMo (https://github.com/NVIDIA/NeMo) toolkit.
- Abstract(参考訳): 本稿では,自動音声認識(ASR)のためのRNN-Transducer(RNN-T)モデルの変更を提案する。
標準RNN-Tでは、ブランクシンボルの出力は正確に1つの入力フレームを消費し、提案手法では2つ以上の入力フレームを消費する追加のブランクシンボルを導入する。
付加記号を大きなブランク、マルチブランクRNN-Tと呼ぶ。
マルチブランクRNN-Tsを訓練するために,大きなブランクの排出を優先するために,新しいロジットアンダー正規化法を提案する。
複数の言語とデータセットに関する実験により、多言語RNN-T法は、英語のLibrispeechデータセットとドイツ語のMultilingual Librispeechデータセットのモデル推論に、それぞれ+90%/+139%以上の相対的なスピードアップをもたらすことを示した。
マルチブランクRNN-T法は、ASRの精度を一貫して改善する。
我々はNeMo (https://github.com/NVIDIA/NeMo)ツールキットでメソッドの実装をリリースします。
関連論文リスト
- Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - Nearest Neighbor Zero-Shot Inference [68.56747574377215]
kNN-Promptは、言語モデル(LM)を用いたゼロショット推論のためのk-nearest neighbor (kNN)検索拡張手法である。
ファジィ動詞化器は、各分類ラベルを自然言語トークンのセットに自動的に関連付けることで、下流タスクのスパースkNN分布を利用する。
実験により,kNN-Promptはドメイン適応に有効であり,さらに,kNN検索に使用するモデルのサイズに応じて,検索のメリットが増加することが示された。
論文 参考訳(メタデータ) (2022-05-27T07:00:59Z) - Adaptive Discounting of Implicit Language Models in RNN-Transducers [33.63456351411599]
RNN-Tアーキテクチャでは,軽量適応型LMディスカウント技術が利用できることを示す。
WERとレアワードPERの最大4%と14%の相対的削減を,会話型,コード混在型のHindi- English ASRタスクで達成した。
論文 参考訳(メタデータ) (2022-02-21T08:44:56Z) - Logsig-RNN: a novel network for robust and efficient skeleton-based
action recognition [3.775860173040509]
我々は、ログネイティブ層とリカレント型ニューラルネットワーク(RNN)を組み合わせた新しいモジュール、Logsig-RNNを提案する。
特に,簡単な経路変換層とLogsig-RNNを組み合わせることで,Chalearn2013ジェスチャデータの最先端精度を実現する。
論文 参考訳(メタデータ) (2021-10-25T14:47:15Z) - iRNN: Integer-only Recurrent Neural Network [0.8766022970635899]
精度の高い整数専用リカレントニューラルネットワーク(iRNN)を得るための量子化学習法を提案する。
当社のiRNNは、フル精度のものと同等のパフォーマンスを維持しており、スマートフォンへの展開により、ランタイムのパフォーマンスが2倍、モデルサイズが4倍に向上しています。
論文 参考訳(メタデータ) (2021-09-20T20:17:40Z) - Adaptive Nearest Neighbor Machine Translation [60.97183408140499]
kNN-MTは、事前訓練されたニューラルネットワーク翻訳とトークンレベルのk-nearest-neighbor検索を組み合わせる。
従来のkNNアルゴリズムは、ターゲットトークンごとに同じ数の近傍を検索する。
ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。
論文 参考訳(メタデータ) (2021-05-27T09:27:42Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - A Token-wise CNN-based Method for Sentence Compression [31.9210679048841]
文圧縮は、原文の短縮とキー情報の保存を目的とした自然言語処理(NLP)タスクである。
現在の手法は主に処理速度の悪いリカレントニューラルネットワーク(RNN)モデルに基づいている。
本稿では,CNN ベースモデルであるトークンワイド・コナールニューラルネットワークと,削除に基づく文圧縮のための事前学習された双方向表現(BERT)機能を提案する。
論文 参考訳(メタデータ) (2020-09-23T17:12:06Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。