論文の概要: Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model
- arxiv url: http://arxiv.org/abs/2201.01995v1
- Date: Thu, 6 Jan 2022 10:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 15:12:38.839238
- Title: Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model
- Title(参考訳): 単語N-gram言語モデルを用いたマンダリン終端音声認識の改良
- Authors: Jinchuan Tian, Jianwei Yu, Chao Weng, Yuexian Zou, and Dong Yu
- Abstract要約: 外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
- 参考スコア(独自算出の注目度): 57.92200214957124
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the rapid progress of end-to-end (E2E) automatic speech recognition
(ASR), it has been shown that incorporating external language models (LMs) into
the decoding can further improve the recognition performance of E2E ASR
systems. To align with the modeling units adopted in E2E ASR systems,
subword-level (e.g., characters, BPE) LMs are usually used to cooperate with
current E2E ASR systems. However, the use of subword-level LMs will ignore the
word-level information, which may limit the strength of the external LMs in E2E
ASR. Although several methods have been proposed to incorporate word-level
external LMs in E2E ASR, these methods are mainly designed for languages with
clear word boundaries such as English and cannot be directly applied to
languages like Mandarin, in which each character sequence can have multiple
corresponding word sequences. To this end, we propose a novel decoding
algorithm where a word-level lattice is constructed on-the-fly to consider all
possible word sequences for each partial hypothesis. Then, the LM score of the
hypothesis is obtained by intersecting the generated lattice with an external
word N-gram LM. The proposed method is examined on both Attention-based
Encoder-Decoder (AED) and Neural Transducer (NT) frameworks. Experiments
suggest that our method consistently outperforms subword-level LMs, including
N-gram LM and neural network LM. We achieve state-of-the-art results on both
Aishell-1 (CER 4.18%) and Aishell-2 (CER 5.06%) datasets and reduce CER by
14.8% relatively on a 21K-hour Mandarin dataset.
- Abstract(参考訳): エンドツーエンド(e2e)自動音声認識(asr)の急速な進歩にもかかわらず、外部言語モデル(lms)をデコードに組み込むことにより、e2e asrシステムの認識性能がさらに向上することが示されている。
E2E ASRシステムで採用されているモデリングユニットに合わせて、サブワードレベル(文字、BPE)のLMは、通常、現在のE2E ASRシステムと協調するために使用される。
しかし、サブワードレベルのLMは単語レベルの情報を無視し、E2E ASRの外部LMの強度を制限する可能性がある。
単語レベルの外部LMをE2E ASRに組み込む方法はいくつか提案されているが、これらの手法は主に英語のような明確な単語境界を持つ言語向けに設計されており、各文字列が複数の単語列を持つことができるマンダリンのような言語には直接適用できない。
そこで本研究では,単語レベルの格子をオンザフライで構築し,各部分仮説に対して可能な単語列をすべて考慮した新しい復号アルゴリズムを提案する。
そして、生成された格子を外部語N-gram LMと交差させて仮説のLMスコアを得る。
提案手法は,AED(Attention-based Encoder-Decoder)とNT(Neural Transducer)の両フレームワークについて検討した。
実験の結果,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回ることがわかった。
Aishell-1(CER 4.18%)とAishell-2(CER 5.06%)の両方のデータセットで最先端の結果が得られ、21K時間マンダリンデータセットでCERを14.8%削減する。
関連論文リスト
- Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition [23.172469312225694]
自動音声認識(ASR)におけるテキスト生成プロセスの指導に,命令調整付き大言語モデル(LLM)を用いることを提案する。
提案手法はCTCとアテンションアーキテクチャを併用し,LLMはデコーダのフロントエンド特徴抽出器として機能する。
実験結果から,LLM誘導モデルによる単語誤り率の相対的な増加率は,主要なベンチマークで約13%であった。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - Prompting Large Language Models for Zero-Shot Domain Adaptation in
Speech Recognition [33.07184218085399]
ドメイン固有のテキストプロンプトのみを用いて、LLaMAを用いた2つのゼロショットASRドメイン適応手法を提案する。
実験により、ドメインのプロンプトが1つしかないと、どちらの手法もドメイン外のTedLium-2とSPGIデータセットのワードエラー率(WER)を効果的に削減できることが示された。
論文 参考訳(メタデータ) (2023-06-28T08:29:00Z) - Joint Prompt Optimization of Stacked LLMs using Variational Inference [66.04409787899583]
大規模言語モデル(LLM)は、列上の分布への計算マッピングシーケンスの原子単位と見なすことができる。
そのような2つのレイヤを積み重ねて1つのレイヤの出力を次のレイヤに供給することで、Deep Language Network(DLN)を得る。
DLN-2は単一層よりも高い性能に到達できることを示し、GPT-4に匹敵する性能に達することを約束する。
論文 参考訳(メタデータ) (2023-06-21T18:45:56Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Spiral Language Modeling [5.816641790933646]
スパイラル言語モデリング(英: Spiral Language Modeling、SLM)は、L2RとR2L以外の自然言語文を構築できる一般的な手法である。
SLMは、結果テキスト内の任意のトークンから始めることで、自然言語テキストを作成することができる。
8つの広く研究されているニューラルネットワーク翻訳(NMT)タスクの実験は、SLMが最大4.7BLEUの増加に対して常に有効であることを示している。
論文 参考訳(メタデータ) (2021-12-20T14:08:38Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。