論文の概要: Cross-Utterance Language Models with Acoustic Error Sampling
- arxiv url: http://arxiv.org/abs/2009.01008v1
- Date: Wed, 19 Aug 2020 17:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 08:58:04.447182
- Title: Cross-Utterance Language Models with Acoustic Error Sampling
- Title(参考訳): 音響誤差サンプリングを用いたクロス発話言語モデル
- Authors: G. Sun, C. Zhang and P. C. Woodland
- Abstract要約: 標準長短期メモリ (LSTM) LMへの入力を増強するために, CULM (Cross-utterance LM) を提案する。
トレーニングとテストタイムのミスマッチを低減するために,音響誤差サンプリング手法を提案する。
AMIデータセットとSwitchboardデータセットの両方で実施された実験では、CULMがLSTM LMベースラインWERより優れていることが示された。
- 参考スコア(独自算出の注目度): 1.376408511310322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effective exploitation of richer contextual information in language
models (LMs) is a long-standing research problem for automatic speech
recognition (ASR). A cross-utterance LM (CULM) is proposed in this paper, which
augments the input to a standard long short-term memory (LSTM) LM with a
context vector derived from past and future utterances using an extraction
network. The extraction network uses another LSTM to encode surrounding
utterances into vectors which are integrated into a context vector using either
a projection of LSTM final hidden states, or a multi-head self-attentive layer.
In addition, an acoustic error sampling technique is proposed to reduce the
mismatch between training and test-time. This is achieved by considering
possible ASR errors into the model training procedure, and can therefore
improve the word error rate (WER). Experiments performed on both AMI and
Switchboard datasets show that CULMs outperform the LSTM LM baseline WER. In
particular, the CULM with a self-attentive layer-based extraction network and
acoustic error sampling achieves 0.6% absolute WER reduction on AMI, 0.3% WER
reduction on the Switchboard part and 0.9% WER reduction on the Callhome part
of Eval2000 test set over the respective baselines.
- Abstract(参考訳): 言語モデル(LM)におけるよりリッチな文脈情報の効果的な活用は、音声認識(ASR)における長年の研究課題である。
本論文では,過去と将来の発話から抽出した文脈ベクトルを用いて,標準長短期メモリ(LSTM)LMへの入力を増大させるクロス発話LM(CULM)を提案する。
抽出ネットワークは、LSTMの最終隠れ状態のプロジェクションまたはマルチヘッド自己認識層を用いて、周囲の発話をコンテキストベクトルに統合したベクトルに符号化するために、別のLSTMを使用する。
また,実験時間とトレーニング時間のミスマッチを低減するため,音響誤差サンプリング手法を提案する。
これは、モデルトレーニング手順に可能なASRエラーを考慮し、従って単語エラー率(WER)を改善することで達成される。
AMIデータセットとSwitchboardデータセットの両方で実施された実験では、CULMがLSTM LMベースラインWERより優れていることが示された。
特に、自己減衰層に基づく抽出ネットワークと音響誤差サンプリングを備えたCULMは、AMIの0.6%のWER削減、Switchboard部の0.3%のWER削減、Eval2000テストセットのCallhome部の0.9%のWER削減を実現している。
関連論文リスト
- It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Connecting Speech Encoder and Large Language Model for ASR [25.660343393359565]
大規模言語モデル(LLM)の印象的な能力と汎用性は、音声認識(ASR)において注目を集めている。
本稿では,完全連結層,マルチヘッドクロスアテンション,Q-Formerを含むコネクタとしてよく使用される3つの構造について比較検討する。
一般的に使用されているLibriSpeech、Common Voice、GigaSpeechデータセットで実験が行われた。
論文 参考訳(メタデータ) (2023-09-25T08:57:07Z) - Leveraging Cross-Utterance Context For ASR Decoding [6.033324057680156]
クロス発話情報は、第2パスの再検査で有益であることが示されている。
ビームサーチによる音響モデルのクロス発話復号のための長文変換器LMの組込みについて検討する。
論文 参考訳(メタデータ) (2023-06-29T12:48:25Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Adaptive neighborhood Metric learning [184.95321334661898]
適応的近傍距離距離学習(ANML)という新しい距離距離距離距離距離距離学習アルゴリズムを提案する。
ANMLは線形埋め込みと深層埋め込みの両方を学ぶのに使うことができる。
本手法で提案するemphlog-exp平均関数は,深層学習手法をレビューするための新たな視点を与える。
論文 参考訳(メタデータ) (2022-01-20T17:26:37Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Transformer Language Models with LSTM-based Cross-utterance Information
Representation [3.976291254896486]
本論文では,長期記憶(LSTM)LMに隠れた状態を用いるR-TLMを提案する。
クロス発話情報をエンコードするために、R-TLMは、トランスフォーマーブロックの一部にセグメントワイズ再発と共にLSTMモジュールを組み込む。
提案システムは,AMI会議コーパス,Eval2000,RT03電話会話評価セットで評価された。
論文 参考訳(メタデータ) (2021-02-12T12:12:29Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。