論文の概要: Cross-Utterance Language Models with Acoustic Error Sampling
- arxiv url: http://arxiv.org/abs/2009.01008v1
- Date: Wed, 19 Aug 2020 17:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 08:58:04.447182
- Title: Cross-Utterance Language Models with Acoustic Error Sampling
- Title(参考訳): 音響誤差サンプリングを用いたクロス発話言語モデル
- Authors: G. Sun, C. Zhang and P. C. Woodland
- Abstract要約: 標準長短期メモリ (LSTM) LMへの入力を増強するために, CULM (Cross-utterance LM) を提案する。
トレーニングとテストタイムのミスマッチを低減するために,音響誤差サンプリング手法を提案する。
AMIデータセットとSwitchboardデータセットの両方で実施された実験では、CULMがLSTM LMベースラインWERより優れていることが示された。
- 参考スコア(独自算出の注目度): 1.376408511310322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effective exploitation of richer contextual information in language
models (LMs) is a long-standing research problem for automatic speech
recognition (ASR). A cross-utterance LM (CULM) is proposed in this paper, which
augments the input to a standard long short-term memory (LSTM) LM with a
context vector derived from past and future utterances using an extraction
network. The extraction network uses another LSTM to encode surrounding
utterances into vectors which are integrated into a context vector using either
a projection of LSTM final hidden states, or a multi-head self-attentive layer.
In addition, an acoustic error sampling technique is proposed to reduce the
mismatch between training and test-time. This is achieved by considering
possible ASR errors into the model training procedure, and can therefore
improve the word error rate (WER). Experiments performed on both AMI and
Switchboard datasets show that CULMs outperform the LSTM LM baseline WER. In
particular, the CULM with a self-attentive layer-based extraction network and
acoustic error sampling achieves 0.6% absolute WER reduction on AMI, 0.3% WER
reduction on the Switchboard part and 0.9% WER reduction on the Callhome part
of Eval2000 test set over the respective baselines.
- Abstract(参考訳): 言語モデル(LM)におけるよりリッチな文脈情報の効果的な活用は、音声認識(ASR)における長年の研究課題である。
本論文では,過去と将来の発話から抽出した文脈ベクトルを用いて,標準長短期メモリ(LSTM)LMへの入力を増大させるクロス発話LM(CULM)を提案する。
抽出ネットワークは、LSTMの最終隠れ状態のプロジェクションまたはマルチヘッド自己認識層を用いて、周囲の発話をコンテキストベクトルに統合したベクトルに符号化するために、別のLSTMを使用する。
また,実験時間とトレーニング時間のミスマッチを低減するため,音響誤差サンプリング手法を提案する。
これは、モデルトレーニング手順に可能なASRエラーを考慮し、従って単語エラー率(WER)を改善することで達成される。
AMIデータセットとSwitchboardデータセットの両方で実施された実験では、CULMがLSTM LMベースラインWERより優れていることが示された。
特に、自己減衰層に基づく抽出ネットワークと音響誤差サンプリングを備えたCULMは、AMIの0.6%のWER削減、Switchboard部の0.3%のWER削減、Eval2000テストセットのCallhome部の0.9%のWER削減を実現している。
関連論文リスト
- R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers [52.88268942796418]
内部言語モデル(ILM)のサブトラクションは、RNN-Transducerの性能向上に広く応用されている。
列識別訓練は, 理論的, 経験的両面からILMサブトラクションと強く相関していることを示す。
論文 参考訳(メタデータ) (2023-09-25T13:35:28Z) - Connecting Speech Encoder and Large Language Model for ASR [25.660343393359565]
大規模言語モデル(LLM)の印象的な能力と汎用性は、音声認識(ASR)において注目を集めている。
本稿では,完全連結層,マルチヘッドクロスアテンション,Q-Formerを含むコネクタとしてよく使用される3つの構造について比較検討する。
一般的に使用されているLibriSpeech、Common Voice、GigaSpeechデータセットで実験が行われた。
論文 参考訳(メタデータ) (2023-09-25T08:57:07Z) - Leveraging Cross-Utterance Context For ASR Decoding [6.033324057680156]
クロス発話情報は、第2パスの再検査で有益であることが示されている。
ビームサーチによる音響モデルのクロス発話復号のための長文変換器LMの組込みについて検討する。
論文 参考訳(メタデータ) (2023-06-29T12:48:25Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Transformer Language Models with LSTM-based Cross-utterance Information
Representation [3.976291254896486]
本論文では,長期記憶(LSTM)LMに隠れた状態を用いるR-TLMを提案する。
クロス発話情報をエンコードするために、R-TLMは、トランスフォーマーブロックの一部にセグメントワイズ再発と共にLSTMモジュールを組み込む。
提案システムは,AMI会議コーパス,Eval2000,RT03電話会話評価セットで評価された。
論文 参考訳(メタデータ) (2021-02-12T12:12:29Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。