論文の概要: Improving the fusion of acoustic and text representations in RNN-T
- arxiv url: http://arxiv.org/abs/2201.10240v1
- Date: Tue, 25 Jan 2022 11:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 02:01:09.306131
- Title: Improving the fusion of acoustic and text representations in RNN-T
- Title(参考訳): RNN-Tにおける音響表現とテキスト表現の融合の改善
- Authors: Chao Zhang, Bo Li, Zhiyun Lu, Tara N. Sainath and Shuo-yiin Chang
- Abstract要約: 我々は、より表現力のある表現を生成するために、ゲーティング、バイリニアプーリング、およびそれらを結合ネットワークで組み合わせることを提案する。
提案手法の併用により, 単語誤り率を4%-5%削減できることを示す。
- 参考スコア(独自算出の注目度): 35.43599666228086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recurrent neural network transducer (RNN-T) has recently become the
mainstream end-to-end approach for streaming automatic speech recognition
(ASR). To estimate the output distributions over subword units, RNN-T uses a
fully connected layer as the joint network to fuse the acoustic representations
extracted using the acoustic encoder with the text representations obtained
using the prediction network based on the previous subword units. In this
paper, we propose to use gating, bilinear pooling, and a combination of them in
the joint network to produce more expressive representations to feed into the
output layer. A regularisation method is also proposed to enable better
acoustic encoder training by reducing the gradients back-propagated into the
prediction network at the beginning of RNN-T training. Experimental results on
a multilingual ASR setting for voice search over nine languages show that the
joint use of the proposed methods can result in 4%--5% relative word error rate
reductions with only a few million extra parameters.
- Abstract(参考訳): リカレントニューラルネットワークトランスデューサ(RNN-T)は、最近、ストリーミング自動音声認識(ASR)のエンドツーエンドアプローチとして主流になっている。
サブワード単位の出力分布を推定するために、RNN-Tは、完全連結層をジョイントネットワークとして使用し、音響エンコーダを用いて抽出した音響表現と予測ネットワークを用いて得られたテキスト表現とを融合させる。
本稿では,より表現力に富んだ表現を出力層に供給するために,ゲーティング,バイリニアプーリング,およびそれらを結合ネットワークで組み合わせることを提案する。
また,RNN-T訓練開始時の予測ネットワークへの逆伝搬勾配を低減し,より優れた音響エンコーダ訓練を実現するための正規化手法を提案する。
9言語にわたる音声検索のための多言語asr設定実験の結果,提案手法を併用すると,数万のパラメータしか持たない単語誤り率を4%~5%削減できることがわかった。
関連論文リスト
- Improving RNN-Transducers with Acoustic LookAhead [32.19475947986392]
RNN-Transducers (RNN-Ts) は音声からテキストへの変換のためのエンドツーエンドモデルとして広く受け入れられている。
未来を先取りしてテキスト表現をより音響的に基礎づけるLookAheadを提案する。
論文 参考訳(メタデータ) (2023-07-11T03:57:00Z) - Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Multitask Learning and Joint Optimization for Transformer-RNN-Transducer
Speech Recognition [13.198689566654107]
本稿では,マルチタスク学習,共同最適化,および変換器-RNN-トランスデューサシステムの共同復号法について検討する。
提案手法は, 単語誤り率(WER)を16.6 %, 13.3 %削減できることを示す。
論文 参考訳(メタデータ) (2020-11-02T06:38:06Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。