論文の概要: Transformer Language Models with LSTM-based Cross-utterance Information
Representation
- arxiv url: http://arxiv.org/abs/2102.06474v1
- Date: Fri, 12 Feb 2021 12:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 13:24:21.396317
- Title: Transformer Language Models with LSTM-based Cross-utterance Information
Representation
- Title(参考訳): LSTMに基づくクロス発話情報表現を用いたトランスフォーマー言語モデル
- Authors: G. Sun, C. Zhang, P. C. Woodland
- Abstract要約: 本論文では,長期記憶(LSTM)LMに隠れた状態を用いるR-TLMを提案する。
クロス発話情報をエンコードするために、R-TLMは、トランスフォーマーブロックの一部にセグメントワイズ再発と共にLSTMモジュールを組み込む。
提案システムは,AMI会議コーパス,Eval2000,RT03電話会話評価セットで評価された。
- 参考スコア(独自算出の注目度): 3.976291254896486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effective incorporation of cross-utterance information has the potential
to improve language models (LMs) for automatic speech recognition (ASR). To
extract more powerful and robust cross-utterance representations for the
Transformer LM (TLM), this paper proposes the R-TLM which uses hidden states in
a long short-term memory (LSTM) LM. To encode the cross-utterance information,
the R-TLM incorporates an LSTM module together with a segment-wise recurrence
in some of the Transformer blocks. In addition to the LSTM module output, a
shortcut connection using a fusion layer that bypasses the LSTM module is also
investigated. The proposed system was evaluated on the AMI meeting corpus, the
Eval2000 and the RT03 telephone conversation evaluation sets. The best R-TLM
achieved 0.9%, 0.6%, and 0.8% absolute WER reductions over the single-utterance
TLM baseline, and 0.5%, 0.3%, 0.2% absolute WER reductions over a strong
cross-utterance TLM baseline on the AMI evaluation set, Eval2000 and RT03
respectively. Improvements on Eval2000 and RT03 were further supported by
significance tests. R-TLMs were found to have better LM scores on words where
recognition errors are more likely to occur. The R-TLM WER can be further
reduced by interpolation with an LSTM-LM.
- Abstract(参考訳): クロス発話情報の効果的な組み込みは、自動音声認識(ASR)のための言語モデル(LM)を改善する可能性がある。
本稿では,Transformer LM (TLM) のより強力で堅牢なクロス発話表現を抽出するために,長期メモリ (LSTM) LM に隠された状態を使用する R-TLM を提案する。
クロス発話情報をエンコードするために、R-TLMは、トランスフォーマーブロックの一部にセグメントワイズ再発と共にLSTMモジュールを組み込む。
LSTMモジュール出力に加えて,LSTMモジュールをバイパスする融合層を用いたショートカット接続についても検討した。
提案システムは,AMI会議コーパス,Eval2000,RT03電話会話評価セットで評価された。
最高のR-TLMは、単発TLMベースラインに対して0.9%、0.6%、絶対WERを0.8%、AMI評価セット上では0.5%、0.3%、0.2%の絶対WERをそれぞれ削減した。
Eval2000とRT03の改良は重要なテストによってさらに支持された。
R-TLMは、認識エラーが起こりやすい単語のLMスコアを改善することが判明した。
R-TLM WERはLSTM-LMとの補間によりさらに低減できます。
関連論文リスト
- Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - xLSTM: Extended Long Short-Term Memory [26.607656211983155]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。
正規化と安定化を適切に行う指数ゲーティングを導入する。
i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文 参考訳(メタデータ) (2024-05-07T17:50:21Z) - Modular Hybrid Autoregressive Transducer [51.29870462504761]
トランスデューサモデルのテキストのみの適応は、エンドツーエンド音声認識では依然として困難である。
ラベルとブランクデコーダを構造的に分離したモジュール型ハイブリッド自己回帰トランスデューサを提案する。
Googleの大規模生産データでは、100B文に適合したマルチドメインのMHATが、LM融合なしでWERを最大12.4%削減する。
論文 参考訳(メタデータ) (2022-10-31T03:56:37Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - LSTM-LM with Long-Term History for First-Pass Decoding in Conversational
Speech Recognition [27.639919625398]
LSTM言語モデル(LSTM-LM)は強力であることが証明され、現代の音声認識システムにおいて、カウントベースn-gram LMよりも大幅に性能が向上した。
最近の研究は、動的(またはツリーベース)デコーダフレームワークにおいて、最初のパスデコードでLSTM-LMを採用することは可能であり、計算に安価であることを示している。
論文 参考訳(メタデータ) (2020-10-21T23:40:26Z) - Cross-Utterance Language Models with Acoustic Error Sampling [1.376408511310322]
標準長短期メモリ (LSTM) LMへの入力を増強するために, CULM (Cross-utterance LM) を提案する。
トレーニングとテストタイムのミスマッチを低減するために,音響誤差サンプリング手法を提案する。
AMIデータセットとSwitchboardデータセットの両方で実施された実験では、CULMがLSTM LMベースラインWERより優れていることが示された。
論文 参考訳(メタデータ) (2020-08-19T17:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。