論文の概要: Bayesian Transformer Language Models for Speech Recognition
- arxiv url: http://arxiv.org/abs/2102.04754v1
- Date: Tue, 9 Feb 2021 10:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:06:00.968971
- Title: Bayesian Transformer Language Models for Speech Recognition
- Title(参考訳): 音声認識のためのベイズ変換言語モデル
- Authors: Boyang Xue, Jianwei Yu, Junhao Xu, Shansong Liu, Shoukang Hu, Zi Ye,
Mengzhe Geng, Xunying Liu, Helen Meng
- Abstract要約: トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 59.235405107295655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art neural language models (LMs) represented by Transformers are
highly complex. Their use of fixed, deterministic parameter estimates fail to
account for model uncertainty and lead to over-fitting and poor generalization
when given limited training data. In order to address these issues, this paper
proposes a full Bayesian learning framework for Transformer LM estimation.
Efficient variational inference based approaches are used to estimate the
latent parameter posterior distributions associated with different parts of the
Transformer model architecture including multi-head self-attention, feed
forward and embedding layers. Statistically significant word error rate (WER)
reductions up to 0.5\% absolute (3.18\% relative) and consistent perplexity
gains were obtained over the baseline Transformer LMs on state-of-the-art
Switchboard corpus trained LF-MMI factored TDNN systems with i-Vector speaker
adaptation. Performance improvements were also obtained on a cross domain LM
adaptation task requiring porting a Transformer LM trained on the Switchboard
and Fisher data to a low-resource DementiaBank elderly speech corpus.
- Abstract(参考訳): トランスフォーマーが表現する最先端のニューラルネットワークモデル(LM)は非常に複雑です。
固定された決定論的パラメータ推定の使用は、モデルの不確かさを考慮せず、限られたトレーニングデータを与えると、過剰フィッティングと不十分な一般化につながる。
本稿では,これらの問題に対処するため,トランスレイタLM推定のためのベイズ学習フレームワークを提案する。
マルチヘッド自己アテンション,フィードフォワードおよび埋め込み層を含むトランスフォーマーモデルアーキテクチャの異なる部分に関連する潜時パラメータ後部分布を,効率的な変分推論に基づくアプローチを用いて推定する。
統計的に有意な単語誤り率 (WER) は0.5 %絶対 (3.18 % ) まで低下し,i-Vector 話者適応型 LF-MMI ファクタリング TDNN システムのベースライントランスフォーマー LM 上で一貫したパープレキシティゲインを得た。
また、スイッチボードとフィッシャーのデータで訓練されたトランスフォーマーLMを低リソースのDementiaBank高齢者音声コーパスに移植する必要があるクロスドメインLM適応タスクでも性能改善が得られました。
関連論文リスト
- MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Human Evaluation of English--Irish Transformer-Based NMT [2.648836772989769]
ベストパフォーマンスのTransformerシステムは、RNNベースのモデルと比較して精度と誤差を著しく低減する。
Google Translateに対してベンチマークを行ったところ、我々の翻訳エンジンは大幅に改善された。
論文 参考訳(メタデータ) (2024-03-04T11:45:46Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Improving Transformer-based Networks With Locality For Automatic Speaker
Verification [40.06788577864032]
話者埋め込み抽出のためのトランスフォーマーベースアーキテクチャが検討されている。
本研究では,2方向の局所性モデルを用いてトランスフォーマーを改良する。
本稿では,VoxCelebデータセットと大規模Microsoft内部多言語(MS-internal)データセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-02-17T01:04:51Z) - Leveraging Pre-trained Models for Failure Analysis Triplets Generation [0.0]
我々は、故障解析トリプレット(FAT)を生成する下流タスクにおいて、トランスフォーマーモデルのような事前訓練された因果言語モデルの注意機構を活用する。
生成事前学習型変換器2(GPT2)は、故障解析三重項生成(FATG)タスクにおいて、他の変換器モデルよりも優れていた。
特に, GPT2(1.5Bパラメータで学習)は, ROUGEにおいて, トレーニング済みBERT, BART, GPT3よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-31T17:21:15Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Multitask Learning and Joint Optimization for Transformer-RNN-Transducer
Speech Recognition [13.198689566654107]
本稿では,マルチタスク学習,共同最適化,および変換器-RNN-トランスデューサシステムの共同復号法について検討する。
提案手法は, 単語誤り率(WER)を16.6 %, 13.3 %削減できることを示す。
論文 参考訳(メタデータ) (2020-11-02T06:38:06Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。