論文の概要: Research on an improved Conformer end-to-end Speech Recognition Model
with R-Drop Structure
- arxiv url: http://arxiv.org/abs/2306.08329v1
- Date: Wed, 14 Jun 2023 08:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 19:46:38.536686
- Title: Research on an improved Conformer end-to-end Speech Recognition Model
with R-Drop Structure
- Title(参考訳): r-drop構造を有する改良されたコンフォーマントエンドツーエンド音声認識モデルに関する研究
- Authors: Weidong Ji, Shijie Zan, Guohui Zhou, and Xu Wang
- Abstract要約: 本研究では,新しいコンフォーマーに基づく音声認識モデル"Conformer-R"を提案する。
モデルは局所的およびグローバルな音声情報の両方を効果的にモデル化でき、R-drop構造を用いることで過度な適合を低減できる。
- 参考スコア(独自算出の注目度): 3.3659128541342276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the issue of poor generalization ability in end-to-end speech
recognition models within deep learning, this study proposes a new
Conformer-based speech recognition model called "Conformer-R" that incorporates
the R-drop structure. This model combines the Conformer model, which has shown
promising results in speech recognition, with the R-drop structure. By doing
so, the model is able to effectively model both local and global speech
information while also reducing overfitting through the use of the R-drop
structure. This enhances the model's ability to generalize and improves overall
recognition efficiency. The model was first pre-trained on the Aishell1 and
Wenetspeech datasets for general domain adaptation, and subsequently fine-tuned
on computer-related audio data. Comparison tests with classic models such as
LAS and Wenet were performed on the same test set, demonstrating the
Conformer-R model's ability to effectively improve generalization.
- Abstract(参考訳): 深層学習におけるエンド・ツー・エンド音声認識モデルにおける一般化能力の低下に対処するため,R-drop構造を組み込んだコンフォーマーベース音声認識モデル"Conformer-R"を提案する。
このモデルは、音声認識で有望な結果を示す適合モデルとr-drop構造を組み合わせたものである。
これにより、R-drop構造を用いることで、局所的およびグローバルな音声情報の両方を効果的にモデル化し、過度な適合を低減できる。
これにより、モデルの一般化能力が向上し、全体的な認識効率が向上する。
このモデルは、まず一般ドメイン適応のためにAishell1とWenetspeechデータセットで事前訓練され、その後、コンピュータ関連のオーディオデータに基づいて微調整された。
LAS や Wenet といった古典モデルとの比較テストは同じテストセットで実施され、Conformer-R モデルの一般化を効果的に改善する能力を示した。
関連論文リスト
- The OCON model: an old but green solution for distributable supervised classification for acoustic monitoring in smart cities [0.28675177318965045]
本稿では,音声認識領域における母音音素分類と話者認識について述べる。
われわれのケーススタディでは、ASRモデルは独自のセンシングと稲妻システムで動作し、都市部における大気汚染の監視に利用されている。
情報グリッド探索手法を用いて,疑似ニューラルアーキテクチャ探索とハイパースチューニング実験の組み合わせを形式化し,現在最も複雑なアーキテクチャに匹敵する分類精度を実現する。
論文 参考訳(メタデータ) (2024-10-05T09:47:54Z) - Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition [12.77573161345651]
本稿では,E2E ASRのための事前学習された音声表現モデルと大規模言語モデル(LLM)を統合することを提案する。
提案モデルは,音響特徴抽出や音響・言語モデリングを含む,ASRプロセス全体の最適化を可能にする。
論文 参考訳(メタデータ) (2023-12-06T18:34:42Z) - Feature Normalization for Fine-tuning Self-Supervised Models in Speech
Enhancement [19.632358491434697]
自己教師付き学習を用いて訓練された大規模で事前訓練された表現モデルは、機械学習の様々な分野で人気を集めている。
本稿では,下流音声強調タスクにおける事前学習音声表現モデルの有用性について検討する。
提案手法は, 各種事前学習音声モデルと組み合わせることで, ベースラインと比較して, 音声品質を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-06-14T10:03:33Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Probing Statistical Representations For End-To-End ASR [28.833851817220616]
本稿では,SVCCAを用いたトランスフォーマーアーキテクチャにおけるドメイン間言語モデル依存性について検討する。
その結果, トランス層内の特定の神経表現は, 認識性能に影響を及ぼす相関挙動を示すことがわかった。
論文 参考訳(メタデータ) (2022-11-03T17:08:14Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - Phoneme Based Neural Transducer for Large Vocabulary Speech Recognition [41.92991390542083]
本稿では,音素に基づくニューラルトランスデューサモデリングのための,シンプルで斬新で競争力のあるアプローチを提案する。
1つの音の文脈サイズは、最高の演奏に十分であることを示す。
我々の最高のモデル全体の性能はTED-Lium Release 2 と Switchboard corpora の State-of-the-art (SOTA) 結果に匹敵する。
論文 参考訳(メタデータ) (2020-10-30T16:53:29Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。