論文の概要: Bayesian Neural Network Language Modeling for Speech Recognition
- arxiv url: http://arxiv.org/abs/2208.13259v1
- Date: Sun, 28 Aug 2022 17:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 12:55:12.570502
- Title: Bayesian Neural Network Language Modeling for Speech Recognition
- Title(参考訳): 音声認識のためのベイズ型ニューラルネットワーク言語モデリング
- Authors: Boyang Xue and Shoukang Hu and Junhao Xu and Mengzhe Geng and Xunying
Liu and Helen Meng
- Abstract要約: 長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
- 参考スコア(独自算出の注目度): 59.681758762712754
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: State-of-the-art neural network language models (NNLMs) represented by long
short term memory recurrent neural networks (LSTM-RNNs) and Transformers are
becoming highly complex. They are prone to overfitting and poor generalization
when given limited training data. To this end, an overarching full Bayesian
learning framework encompassing three methods is proposed in this paper to
account for the underlying uncertainty in LSTM-RNN and Transformer LMs. The
uncertainty over their model parameters, choice of neural activations and
hidden output representations are modeled using Bayesian, Gaussian Process and
variational LSTM-RNN or Transformer LMs respectively. Efficient inference
approaches were used to automatically select the optimal network internal
components to be Bayesian learned using neural architecture search. A minimal
number of Monte Carlo parameter samples as low as one was also used. These
allow the computational costs incurred in Bayesian NNLM training and evaluation
to be minimized. Experiments are conducted on two tasks: AMI meeting
transcription and Oxford-BBC LipReading Sentences 2 (LRS2) overlapped speech
recognition using state-of-the-art LF-MMI trained factored TDNN systems
featuring data augmentation, speaker adaptation and audio-visual multi-channel
beamforming for overlapped speech. Consistent performance improvements over the
baseline LSTM-RNN and Transformer LMs with point estimated model parameters and
drop-out regularization were obtained across both tasks in terms of perplexity
and word error rate (WER). In particular, on the LRS2 data, statistically
significant WER reductions up to 1.3% and 1.2% absolute (12.1% and 11.3%
relative) were obtained over the baseline LSTM-RNN and Transformer LMs
respectively after model combination between Bayesian NNLMs and their
respective baselines.
- Abstract(参考訳): 長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
限られたトレーニングデータを与えると、それらは過度に適合し、一般化が貧弱になりがちである。
そこで本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,3つの手法を含むベイズ学習フレームワークを提案する。
モデルパラメータに対する不確実性、ニューラルアクティベーションの選択、および隠れ出力表現は、それぞれベイジアン、ガウス過程、変分LSTM-RNNまたはトランスフォーマーLMを用いてモデル化される。
効率的な推論手法は、ニューラルネットワーク検索を用いてベイズ学習に最適なネットワーク内部コンポーネントを自動的に選択するために用いられた。
最小数のモンテカルロパラメータのサンプルも使われた。
これにより、ベイジアンNNLMトレーニングで発生する計算コストを最小化することができる。
ami会議音声認識とoxford-bbc lipreading sentences 2 (lrs2) 重畳音声認識について,データ拡張,話者適応,重畳音声のための視聴覚多チャンネルビームフォーミングを特徴とする最先端lf-mmi学習型tdnnシステムを用いて実験を行った。
点推定モデルパラメータとドロップアウト正規化を併用したベースラインLSTM-RNNとトランスフォーマーLMの整合性向上を,両タスクの難易度と単語誤り率(WER)の観点から行った。
特に,lrs2データでは,ベイズ型nnlmsとそれぞれのベースラインのモデル組み合わせにより,ベースラインlstm-rnnおよびトランスフォーマ lmsに対して,統計的に有意なwer低減率 (12.1%,11.3%) が得られた。
関連論文リスト
- Parameter estimation for WMTI-Watson model of white matter using
encoder-decoder recurrent neural network [0.0]
本研究では,ラットおよびヒト脳のデータセット上でのNLLS,RNN法および多層パーセプトロン(MLP)の性能を評価する。
提案手法は,NLLSよりも計算時間を大幅に短縮できるという利点を示した。
論文 参考訳(メタデータ) (2022-03-01T16:33:15Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Neural Calibration for Scalable Beamforming in FDD Massive MIMO with
Implicit Channel Estimation [10.775558382613077]
チャネル推定とビームフォーミングは、周波数分割二重化(FDD)大規模マルチインプット多重出力(MIMO)システムにおいて重要な役割を果たす。
受信したアップリンクパイロットに応じて,基地局のビームフォーマを直接最適化する深層学習方式を提案する。
エンド・ツー・エンドの設計のスケーラビリティを向上させるために,ニューラルキャリブレーション法を提案する。
論文 参考訳(メタデータ) (2021-08-03T14:26:14Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Compressing LSTM Networks by Matrix Product Operators [7.395226141345625]
Long Short Term Memory(LSTM)モデルは、多くの最先端自然言語処理(NLP)と音声強調(SE)アルゴリズムの構築ブロックである。
ここでは、量子多体物理学における量子状態の局所的相関を記述するMPO分解を紹介する。
LSTMモデルを置き換えるために,行列積演算子(MPO)に基づくニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-22T11:50:06Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。