論文の概要: Investigating the effect of domain selection on automatic speech
recognition performance: a case study on Bangladeshi Bangla
- arxiv url: http://arxiv.org/abs/2210.12921v1
- Date: Mon, 24 Oct 2022 02:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:49:46.624922
- Title: Investigating the effect of domain selection on automatic speech
recognition performance: a case study on Bangladeshi Bangla
- Title(参考訳): ドメイン選択が自動音声認識性能に及ぼす影響の検討:バングラデシュ・バングラデシュを事例として
- Authors: Ahnaf Mozib Samin, M. Humayan Kobir, Md. Mushtaq Shahriyar Rafee, M.
Firoz Ahmed, Shafkat Kibria, and M. Shahidur Rahman
- Abstract要約: 音声コーパスの開発には、クリーン/ノイズ、読み/自発性、マルチトーカー音声、アクセント/方言などに関する追加の注意が必要である。
本研究では,最先端のバングラ自動音声認識モデルを用いて,領域選択の重要性を示す。
BanSpeechは、Bangla ASRの挑戦的な評価ベンチマークの必要性を満たすために、一般公開される予定である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of data-driven natural language processing systems is
contingent upon the quality of corpora. However, principal corpus design
criteria are often not identified and examined adequately, particularly in the
speech processing discipline. Speech corpora development requires additional
attention with regard to clean/noisy, read/spontaneous, multi-talker speech,
accents/dialects, etc. Domain selection is also a crucial decision point in
speech corpus development. In this study, we demonstrate the significance of
domain selection by assessing a state-of-the-art Bangla automatic speech
recognition (ASR) model on a novel multi-domain Bangladeshi Bangla ASR
evaluation benchmark - BanSpeech, which contains 7.2 hours of speech and 9802
utterances from 19 distinct domains. The ASR model has been trained with deep
convolutional neural network (CNN), layer normalization technique, and
Connectionist Temporal Classification (CTC) loss criterion on SUBAK.KO, a
mostly read speech corpus for the low-resource and morphologically rich
language Bangla. Experimental evaluation reveals the ASR model on SUBAK.KO
faces difficulty recognizing speech from domains with mostly spontaneous speech
and has a high number of out-of-vocabulary (OOV) words. The same ASR model, on
the other hand, performs better in read speech domains and contains fewer OOV
words. In addition, we report the outcomes of our experiments with layer
normalization, input feature extraction, number of convolutional layers, etc.,
and set a baseline on SUBAK.KO. The BanSpeech will be publicly available to
meet the need for a challenging evaluation benchmark for Bangla ASR.
- Abstract(参考訳): データ駆動自然言語処理システムの性能はコーパスの品質に起因している。
しかし、主コーパス設計基準はしばしば同定されず、特に音声処理分野において適切に検討される。
音声コーパスの開発には、クリーン/ノイズ、読み書き、マルチトーク、アクセント/ダイアレクタなどに関する追加の注意が必要である。
ドメイン選択は、音声コーパス開発においても重要な決定点である。
本研究では、バングラデシュのマルチドメインバングラデシュであるバングラデシュ・バングラasr評価ベンチマーク(banspeech)において、最新のバングラデシュ自動音声認識(asr)モデルを評価することにより、19の異なるドメインから7.2時間音声と9802発話を含むドメイン選択の重要性を示す。
ASRモデルは深層畳み込みニューラルネットワーク(CNN)、層正規化技術、および低リソースで形態的に豊かなバングラ語のためのほとんど読み上げ音声コーパスであるSUBAK.KO上の接続性時間分類(CTC)損失基準を用いて訓練されている。
実験的評価により,asrモデルでは自発的発話のほとんどを含む領域からの音声認識が困難であり,語彙外単語(oov)が多いことが明らかとなった。
一方、同じASRモデルでは、読み上げ音声領域では性能が良く、OOVワードが少ない。
さらに,我々は,層正規化,入力特徴抽出,畳み込み層数などを用いた実験の結果を報告し,subak.koにベースラインを設定した。
BanSpeechは、Bangla ASRの挑戦的な評価ベンチマークの必要性を満たすために、一般公開される予定である。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Locality enhanced dynamic biasing and sampling strategies for contextual
ASR [7.640373723875947]
文脈バイアス(CB)モジュールは、そのような文脈関連句に対してASRモデルをバイアスする。
本研究はまず,ASRにおけるCBのトレーニングに関する知見を提供するために,異なるサンプリング戦略を解析する。
次に,隣接するフレームに自己注意(SA)を局在させる近傍注意(NA)を導入する。
論文 参考訳(メタデータ) (2024-01-23T23:46:01Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - ATCSpeechNet: A multilingual end-to-end speech recognition framework for
air traffic control systems [15.527854608553824]
ATCSpeechNetは、航空交通制御システムにおけるコミュニケーション音声を人間可読テキストに変換する問題に取り組むために提案されている。
特徴工学や辞書を使わずに、音声波形を直接テキストに変換するエンドツーエンドのパラダイムが開発されている。
ATCSpeech corpusの実験結果から,非常に小さなラベル付きコーパスを用いて,提案手法が高い性能を実現することが示された。
論文 参考訳(メタデータ) (2021-02-17T02:27:09Z) - A bandit approach to curriculum generation for automatic speech
recognition [7.008190762572486]
本稿では,自動カリキュラム学習を用いて,学習データの欠如を緩和する手法を提案する。
このアプローチの目的は、難易度でランク付けされたミニバッチのトレーニングシーケンスを最適化することである。
我々は,本手法を真に低リソースな言語で検証し,ベースライン移行学習モデルに対して,帯域幅フレームワークが優れた改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-02-06T20:32:10Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。