論文の概要: On the Effectiveness of Neural Text Generation based Data Augmentation
for Recognition of Morphologically Rich Speech
- arxiv url: http://arxiv.org/abs/2006.05129v1
- Date: Tue, 9 Jun 2020 09:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 15:21:28.261482
- Title: On the Effectiveness of Neural Text Generation based Data Augmentation
for Recognition of Morphologically Rich Speech
- Title(参考訳): 形態素リッチ音声の認識におけるニューラルテキスト生成に基づくデータ拡張の有効性について
- Authors: Bal\'azs Tarj\'an, Gy\"orgy Szasz\'ak, Tibor Fegy\'o, P\'eter Mihajlik
- Abstract要約: 我々は、RNNLMからの知識をテキスト生成に基づくデータ拡張による単一パスBNLMに転送することで、会話音声書き起こしシステムのオンライン性能を大幅に改善した。
第1パスでRNN-BNLMを使用し、第2パスで、オフラインのASR結果をさらに改善できることが示される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced neural network models have penetrated Automatic Speech Recognition
(ASR) in recent years, however, in language modeling many systems still rely on
traditional Back-off N-gram Language Models (BNLM) partly or entirely. The
reason for this are the high cost and complexity of training and using neural
language models, mostly possible by adding a second decoding pass (rescoring).
In our recent work we have significantly improved the online performance of a
conversational speech transcription system by transferring knowledge from a
Recurrent Neural Network Language Model (RNNLM) to the single pass BNLM with
text generation based data augmentation. In the present paper we analyze the
amount of transferable knowledge and demonstrate that the neural augmented LM
(RNN-BNLM) can help to capture almost 50% of the knowledge of the RNNLM yet by
dropping the second decoding pass and making the system real-time capable. We
also systematically compare word and subword LMs and show that subword-based
neural text augmentation can be especially beneficial in under-resourced
conditions. In addition, we show that using the RNN-BNLM in the first pass
followed by a neural second pass, offline ASR results can be even significantly
improved.
- Abstract(参考訳): 近年、先進的なニューラルネットワークモデルは自動音声認識 (ASR) を浸透させているが、言語モデリングにおいては、多くのシステムは現在でも部分的にまたは完全に伝統的なN-gram言語モデル (BNLM) に依存している。
この理由の1つは、トレーニングのコストが高く、ニューラルネットワークモデルの使用が複雑であることであり、そのほとんどが、第2の復号パス(rescoring)を追加することで実現されている。
最近の研究では、リカレントニューラルネットワーク言語モデル(RNNLM)からの知識をテキスト生成に基づくデータ拡張による単一パスBNLMに転送することで、会話音声の書き起こしシステムのオンラインパフォーマンスを大幅に改善した。
本稿では,トランスファー可能な知識の量を分析し,rnn-bnlm(neural augmented lm)が,第2の復号パスを落としてリアルタイムにシステムを実現することで,rnnlmの知識の約50%を捕捉できることを実証する。
また,単語とサブワードのLMを体系的に比較し,サブワードベースのニューラルテキスト拡張が低リソース環境で特に有用であることを示す。
さらに、第1パスでRNN-BNLMを使用し、第2パスで、オフラインのASR結果をさらに改善できることを示す。
関連論文リスト
- Mitigating Data Scarcity for Large Language Models [7.259279261659759]
近年,事前学習型ニューラルネットワークモデル (PNLM) が嵐による自然言語処理の分野に進出している。
データ不足は、医学などの専門分野や、AI研究によって調査されていない低リソース言語でよく見られる。
この論文では、データ強化とニューラルアンサンブル学習技術を用いて、データの不足を軽減することに焦点を当てる。
論文 参考訳(メタデータ) (2023-02-03T15:17:53Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Leveraging Graph-based Cross-modal Information Fusion for Neural Sign
Language Translation [46.825957917649795]
手話 (SL) は聴覚障害者の母語であり、ほとんどの人が理解できない特別な視覚言語である。
動的グラフに基づくマルチモーダル特徴融合を用いたニューラルSLTモデルを提案する。
我々はまず,マルチモーダル情報を融合したグラフニューラルネットワークをニューラルネットワーク翻訳モデルに導入した。
論文 参考訳(メタデータ) (2022-11-01T15:26:22Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - A Survey on Non-Autoregressive Generation for Neural Machine Translation
and Beyond [145.43029264191543]
非自己回帰(NAR)生成は推論を高速化するために機械翻訳(NMT)で最初に提案される。
NAR生成は機械翻訳を著しく加速させるが、自己回帰(AR)生成の推論は翻訳精度を犠牲にする。
NAR生成とAR生成の精度ギャップを埋めるために、多くの新しいモデルとアルゴリズムが設計/提案されている。
論文 参考訳(メタデータ) (2022-04-20T07:25:22Z) - Dynamic Gesture Recognition [0.0]
従来のコンピュータビジョンアルゴリズムの代わりに、機械学習を使って画像や動画を分類することができる。
このプロジェクトの目的は、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の共生を構築することである。
論文 参考訳(メタデータ) (2021-09-20T09:45:29Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Improved Neural Language Model Fusion for Streaming Recurrent Neural
Network Transducer [28.697119605752643]
リカレントニューラルネットワークトランスデューサ(RNN-T)は暗黙のニューラルネットワーク言語モデル(NNLM)を備えており、トレーニング中に不適切なテキストデータを容易に活用できない。
従来の研究では、この弱点に対処するため、外部NNLMをエンドツーエンドのASRに組み込む様々な融合手法が提案されている。
トレーニング時間と推論時間の両方において、RNN-Tが外部NNLMを活用できるように、これらの手法の拡張を提案する。
論文 参考訳(メタデータ) (2020-10-26T20:10:12Z) - Deep Transformer based Data Augmentation with Subword Units for
Morphologically Rich Online ASR [0.0]
ディープトランスフォーマーモデルは、ASRの言語モデリングタスクにおいて特に強力であることが証明されている。
近年の研究では、ニューラルネットワーク言語モデル(LM)の知識の大部分は、ニューラルテキスト生成に基づくデータ拡張を用いて従来のn-gramに転送可能であることが示されている。
トランスフォーマー生成したテキストによるデータ拡張は、孤立言語ではうまく機能するが、形態的にリッチな言語では語彙が爆発する。
そこで我々は,生成したテキストを統計的に派生したサブワードに再学習する,サブワードベースのニューラルテキスト拡張法を提案する。
論文 参考訳(メタデータ) (2020-07-14T10:22:05Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。