論文の概要: Investigating self-supervised, weakly supervised and fully supervised
training approaches for multi-domain automatic speech recognition: a study on
Bangladeshi Bangla
- arxiv url: http://arxiv.org/abs/2210.12921v3
- Date: Thu, 11 May 2023 01:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 18:37:53.034020
- Title: Investigating self-supervised, weakly supervised and fully supervised
training approaches for multi-domain automatic speech recognition: a study on
Bangladeshi Bangla
- Title(参考訳): 多分野自動音声認識のための自己監督的・弱教師的・完全教師的訓練アプローチの検討 : バングラデシュ・バングラの研究
- Authors: Ahnaf Mozib Samin, M. Humayon Kobir, Md. Mushtaq Shahriyar Rafee, M.
Firoz Ahmed, Mehedi Hasan, Partha Ghosh, Shafkat Kibria, and M. Shahidur
Rahman
- Abstract要約: 音声認識システムはまだ、ドメインシフトによる堅牢性や一般化性の欠如に悩まされている。
本研究では,自己教師型wav2vec 2.0や弱教師型Whisperといった最先端の伝達学習手法の堅牢性について検討した。
また,これらのモデルをバングラデシュのバングラデシュASRベンチマークで評価することにより,コーパス構築におけるドメイン選択の重要性を示す。
- 参考スコア(独自算出の注目度): 4.869409466908974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite huge improvements in automatic speech recognition (ASR) employing
neural networks, ASR systems still suffer from a lack of robustness and
generalizability issues due to domain shifting. This is mainly because
principal corpus design criteria are often not identified and examined
adequately while compiling ASR datasets. In this study, we investigate the
robustness of the state-of-the-art transfer learning approaches such as
self-supervised wav2vec 2.0 and weakly supervised Whisper as well as fully
supervised convolutional neural networks (CNNs) for multi-domain ASR. We also
demonstrate the significance of domain selection while building a corpus by
assessing these models on a novel multi-domain Bangladeshi Bangla ASR
evaluation benchmark - BanSpeech, which contains approximately 6.52 hours of
human-annotated speech and 8085 utterances from 13 distinct domains. SUBAK.KO,
a mostly read speech corpus for the morphologically rich language Bangla, has
been used to train the ASR systems. Experimental evaluation reveals that
self-supervised cross-lingual pre-training is the best strategy compared to
weak supervision and full supervision to tackle the multi-domain ASR task.
Moreover, the ASR models trained on SUBAK.KO face difficulty recognizing speech
from domains with mostly spontaneous speech. The BanSpeech will be publicly
available to meet the need for a challenging evaluation benchmark for Bangla
ASR.
- Abstract(参考訳): ニューラルネットワークを用いた自動音声認識(ASR)の大幅な改善にもかかわらず、ASRシステムはドメインシフトによる堅牢性や一般化性の欠如に悩まされている。
これは主に、主要なコーパス設計基準がASRデータセットをコンパイルしながら適切に識別され、検査されることがしばしばあるためである。
本研究では,自己教師型wav2vec 2.0や弱教師型Whisper,マルチドメインASRのための完全教師型畳み込みニューラルネットワーク(CNN)といった最先端の伝達学習手法の堅牢性を検討した。
また,マルチドメインバングラデシュのバングラデシュ・バングラアasr評価ベンチマーク(バングラデシュ・バングラasr評価ベンチマーク)において,13領域から8085発話を抽出し,コーパス作成時のドメイン選択の重要性を実証した。
SUBAK.KOは、形態的に豊かなバングラ語のためのほとんど読み上げられた音声コーパスであり、ASRシステムの訓練に使われている。
実験評価により,マルチドメインasrタスクに取り組むための弱い監督と完全な監督に比べて,自己教師付き言語間事前訓練が最善の戦略であることが判明した。
さらに,asrモデルでは,自発的な発話がほとんどである領域からの音声認識が困難であった。
BanSpeechは、Bangla ASRの挑戦的な評価ベンチマークの必要性を満たすために、一般公開される予定である。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Locality enhanced dynamic biasing and sampling strategies for contextual
ASR [7.640373723875947]
文脈バイアス(CB)モジュールは、そのような文脈関連句に対してASRモデルをバイアスする。
本研究はまず,ASRにおけるCBのトレーニングに関する知見を提供するために,異なるサンプリング戦略を解析する。
次に,隣接するフレームに自己注意(SA)を局在させる近傍注意(NA)を導入する。
論文 参考訳(メタデータ) (2024-01-23T23:46:01Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - ATCSpeechNet: A multilingual end-to-end speech recognition framework for
air traffic control systems [15.527854608553824]
ATCSpeechNetは、航空交通制御システムにおけるコミュニケーション音声を人間可読テキストに変換する問題に取り組むために提案されている。
特徴工学や辞書を使わずに、音声波形を直接テキストに変換するエンドツーエンドのパラダイムが開発されている。
ATCSpeech corpusの実験結果から,非常に小さなラベル付きコーパスを用いて,提案手法が高い性能を実現することが示された。
論文 参考訳(メタデータ) (2021-02-17T02:27:09Z) - A bandit approach to curriculum generation for automatic speech
recognition [7.008190762572486]
本稿では,自動カリキュラム学習を用いて,学習データの欠如を緩和する手法を提案する。
このアプローチの目的は、難易度でランク付けされたミニバッチのトレーニングシーケンスを最適化することである。
我々は,本手法を真に低リソースな言語で検証し,ベースライン移行学習モデルに対して,帯域幅フレームワークが優れた改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-02-06T20:32:10Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。