論文の概要: Research on an improved Conformer end-to-end Speech Recognition Model
with R-Drop Structure
- arxiv url: http://arxiv.org/abs/2306.08329v1
- Date: Wed, 14 Jun 2023 08:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 19:46:38.536686
- Title: Research on an improved Conformer end-to-end Speech Recognition Model
with R-Drop Structure
- Title(参考訳): r-drop構造を有する改良されたコンフォーマントエンドツーエンド音声認識モデルに関する研究
- Authors: Weidong Ji, Shijie Zan, Guohui Zhou, and Xu Wang
- Abstract要約: 本研究では,新しいコンフォーマーに基づく音声認識モデル"Conformer-R"を提案する。
モデルは局所的およびグローバルな音声情報の両方を効果的にモデル化でき、R-drop構造を用いることで過度な適合を低減できる。
- 参考スコア(独自算出の注目度): 3.3659128541342276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the issue of poor generalization ability in end-to-end speech
recognition models within deep learning, this study proposes a new
Conformer-based speech recognition model called "Conformer-R" that incorporates
the R-drop structure. This model combines the Conformer model, which has shown
promising results in speech recognition, with the R-drop structure. By doing
so, the model is able to effectively model both local and global speech
information while also reducing overfitting through the use of the R-drop
structure. This enhances the model's ability to generalize and improves overall
recognition efficiency. The model was first pre-trained on the Aishell1 and
Wenetspeech datasets for general domain adaptation, and subsequently fine-tuned
on computer-related audio data. Comparison tests with classic models such as
LAS and Wenet were performed on the same test set, demonstrating the
Conformer-R model's ability to effectively improve generalization.
- Abstract(参考訳): 深層学習におけるエンド・ツー・エンド音声認識モデルにおける一般化能力の低下に対処するため,R-drop構造を組み込んだコンフォーマーベース音声認識モデル"Conformer-R"を提案する。
このモデルは、音声認識で有望な結果を示す適合モデルとr-drop構造を組み合わせたものである。
これにより、R-drop構造を用いることで、局所的およびグローバルな音声情報の両方を効果的にモデル化し、過度な適合を低減できる。
これにより、モデルの一般化能力が向上し、全体的な認識効率が向上する。
このモデルは、まず一般ドメイン適応のためにAishell1とWenetspeechデータセットで事前訓練され、その後、コンピュータ関連のオーディオデータに基づいて微調整された。
LAS や Wenet といった古典モデルとの比較テストは同じテストセットで実施され、Conformer-R モデルの一般化を効果的に改善する能力を示した。
関連論文リスト
- Feature Normalization for Fine-tuning Self-Supervised Models in Speech
Enhancement [19.632358491434697]
自己教師付き学習を用いて訓練された大規模で事前訓練された表現モデルは、機械学習の様々な分野で人気を集めている。
本稿では,下流音声強調タスクにおける事前学習音声表現モデルの有用性について検討する。
提案手法は, 各種事前学習音声モデルと組み合わせることで, ベースラインと比較して, 音声品質を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-06-14T10:03:33Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Probing Statistical Representations For End-To-End ASR [28.833851817220616]
本稿では,SVCCAを用いたトランスフォーマーアーキテクチャにおけるドメイン間言語モデル依存性について検討する。
その結果, トランス層内の特定の神経表現は, 認識性能に影響を及ぼす相関挙動を示すことがわかった。
論文 参考訳(メタデータ) (2022-11-03T17:08:14Z) - Global Normalization for Streaming Speech Recognition in a Modular
Framework [14.958827687865075]
音声認識におけるラベルバイアス問題に対処するためのGNAT(Globally Normalized Autoregressive Transducer)を提案する。
グローバルな正規化モデルに切り替えることで、ストリーミングと非ストリーミング音声認識モデルの単語誤り率ギャップを大幅に削減することができる。
論文 参考訳(メタデータ) (2022-05-26T23:34:21Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - Phoneme Based Neural Transducer for Large Vocabulary Speech Recognition [41.92991390542083]
本稿では,音素に基づくニューラルトランスデューサモデリングのための,シンプルで斬新で競争力のあるアプローチを提案する。
1つの音の文脈サイズは、最高の演奏に十分であることを示す。
我々の最高のモデル全体の性能はTED-Lium Release 2 と Switchboard corpora の State-of-the-art (SOTA) 結果に匹敵する。
論文 参考訳(メタデータ) (2020-10-30T16:53:29Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Utterance-level Sequential Modeling For Deep Gaussian Process Based
Speech Synthesis Using Simple Recurrent Unit [41.85906379846473]
本稿では,DGPが繰り返しアーキテクチャモデルを用いて発話レベルモデリングに適用可能であることを示す。
提案したモデルに対して単純な再帰ユニット(SRU)を採用し,再帰的アーキテクチャを実現する。
提案したSRU-DGPに基づく音声合成は、フィードフォワードDGPだけでなく、SRUと長短期記憶(LSTM)ベースのニューラルネットワークを自動調整する。
論文 参考訳(メタデータ) (2020-04-22T19:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。