論文の概要: Improving Uyghur ASR systems with decoders using morpheme-based language
models
- arxiv url: http://arxiv.org/abs/2003.01509v2
- Date: Wed, 4 Mar 2020 06:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 23:20:48.157607
- Title: Improving Uyghur ASR systems with decoders using morpheme-based language
models
- Title(参考訳): 形態素言語モデルを用いたデコーダによるウイグルASRシステムの改良
- Authors: Zicheng Qiu, Wei Jiang, Turghunjan Mamut
- Abstract要約: ウイグル語は少数言語である。
THUYG-20は現在、ウイグル語音声の唯一のオープンソースデータセットである。
形態素に基づくデコーダ MLDG-Decoder を開発した。
- 参考スコア(独自算出の注目度): 3.670848852348134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uyghur is a minority language, and its resources for Automatic Speech
Recognition (ASR) research are always insufficient. THUYG-20 is currently the
only open-sourced dataset of Uyghur speeches. State-of-the-art results of its
clean and noiseless speech test task haven't been updated since the first
release, which shows a big gap in the development of ASR between mainstream
languages and Uyghur. In this paper, we try to bridge the gap by ultimately
optimizing the ASR systems, and by developing a morpheme-based decoder,
MLDG-Decoder (Morpheme Lattice Dynamically Generating Decoder for Uyghur
DNN-HMM systems), which has long been missing. We have open-sourced the
decoder. The MLDG-Decoder employs an algorithm, named as "on-the-fly
composition with FEBABOS", to allow the back-off states and transitions to play
the role of a relay station in on-the-fly composition. The algorithm empowers
the dynamically generated graph to constrain the morpheme sequences in the
lattices as effectively as the static and fully composed graph does when a
4-Gram morpheme-based Language Model (LM) is used. We have trained deeper and
wider neural network acoustic models, and experimented with three kinds of
decoding schemes. The experimental results show that the decoding based on the
static and fully composed graph reduces state-of-the-art Word Error Rate (WER)
on the clean and noiseless speech test task in THUYG-20 to 14.24%. The
MLDG-Decoder reduces the WER to 14.54% while keeping the memory consumption
reasonable. Based on the open-sourced MLDG-Decoder, readers can easily
reproduce the experimental results in this paper.
- Abstract(参考訳): uyghurはマイノリティ言語であり、自動音声認識(asr)研究のためのリソースは常に不十分である。
thuyg-20は現在、uyghur speechesの唯一のオープンソースデータセットである。
最初のリリース以来、クリーンでノイズのない音声テストタスクの最先端の結果は更新されておらず、主流言語とウイグル語の間のasr開発に大きなギャップがあることを示している。
本稿では、最終的にASRシステムを最適化してギャップを埋めることを試みるとともに、長年行方不明であったMLDG-Decoder(Morpheme Lattice Dynamically Generating Decoder for Uyghur DNN-HMM system)を開発した。
私たちはデコーダをオープンソース化しました。
MLDG-Decoder は "on-the-fly composition with FEBABOS" と呼ばれるアルゴリズムを用いて、バックオフ状態と遷移がオン-ザ-フライ合成においてリレーステーションの役割を演じることを可能にする。
このアルゴリズムは、4-Gram morpheme-based Language Model(LM)を使用するとき、動的に生成されたグラフに対して、静的で完全に構成されたグラフのように格子内の形態素列を効果的に制限する権限を与える。
我々は,より深いニューラルネットワーク音響モデルを訓練し,3種類の復号法を実験した。
実験結果から,静的で完全に構成されたグラフに基づくデコーディングにより,THUYG-20におけるクリーンでノイズのない音声テストタスクにおける最先端のワード誤り率(WER)が14.24%削減された。
MLDGデコーダはWERを14.54%に削減し、メモリ消費を合理的に維持する。
本論文では,オープンソースのMDDGデコーダを用いて,実験結果を容易に再現することができる。
関連論文リスト
- Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Inflected Forms Are Redundant in Question Generation Models [27.49894653349779]
本稿では,エンコーダ・デコーダ・フレームワークを用いた質問生成の性能向上手法を提案する。
まず,エンコーダの入力から入力された単語を識別し,根語に置き換える。
次に,エンコード・デコーダ・フレームワークにおける以下の動作の組合せとしてQGを適用することを提案する。質問語の生成,ソースシーケンスからの単語のコピー,単語変換型の生成である。
論文 参考訳(メタデータ) (2023-01-01T13:08:11Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。