論文の概要: Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2311.03196v1
- Date: Mon, 6 Nov 2023 15:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 14:02:59.384253
- Title: Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition
- Title(参考訳): ドメイン非依存バングラ自動音声認識のための擬似ラベル
- Authors: Rabindra Nath Nandi, Mehadi Hasan Menon, Tareq Al Muntasir, Sagor
Sarker, Quazi Sarwar Muhtaseem, Md. Tariqul Islam, Shammur Absar Chowdhury,
Firoj Alam
- Abstract要約: 本研究では,大規模ドメインに依存しないASRデータセットを構築するための擬似ラベル手法を提案する。
さまざまな話題,話し方,方言,騒々しい環境,会話シナリオを含む20k時間以上のラベル付きバングラ音声データセットを開発した。
トレーニングされたASRを公開データセットでベンチマークし、他の利用可能なモデルと比較しました。
本研究は,設計したテストセットの擬似ラベルデータに基づいてトレーニングしたモデルと,公開されているBanglaデータセットの有効性を実証するものである。
- 参考スコア(独自算出の注目度): 10.244515100904144
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One of the major challenges for developing automatic speech recognition (ASR)
for low-resource languages is the limited access to labeled data with
domain-specific variations. In this study, we propose a pseudo-labeling
approach to develop a large-scale domain-agnostic ASR dataset. With the
proposed methodology, we developed a 20k+ hours labeled Bangla speech dataset
covering diverse topics, speaking styles, dialects, noisy environments, and
conversational scenarios. We then exploited the developed corpus to design a
conformer-based ASR system. We benchmarked the trained ASR with publicly
available datasets and compared it with other available models. To investigate
the efficacy, we designed and developed a human-annotated domain-agnostic test
set composed of news, telephony, and conversational data among others. Our
results demonstrate the efficacy of the model trained on psuedo-label data for
the designed test-set along with publicly-available Bangla datasets. The
experimental resources will be publicly
available.(https://github.com/hishab-nlp/Pseudo-Labeling-for-Domain-Agnostic-Bangla-ASR)
- Abstract(参考訳): 低リソース言語のための自動音声認識(ASR)を開発する上での大きな課題の1つは、ドメイン固有のバリエーションを持つラベル付きデータへのアクセス制限である。
本研究では,大規模ドメインに依存しないasrデータセットを開発するための擬似ラベル手法を提案する。
提案手法を用いて,多様な話題,話し方,方言,騒々しい環境,会話シナリオを対象とする20k時間以上のBangla音声データセットを開発した。
次に,開発したコーパスを利用してコンバータベースのASRシステムを設計した。
トレーニングされたASRを公開データセットでベンチマークし、他の利用可能なモデルと比較しました。
有効性を調べるために,ニュース,電話,会話データなどからなる人間に注釈を付したドメイン非依存テストセットを設計・開発した。
本研究は,設計したテストセットの擬似ラベルデータに基づいてトレーニングしたモデルと,公開されているBanglaデータセットの有効性を示す。
実験的なリソースは公開される予定だ。
(https://github.com/hishab-nlp/Pseudo-Labeling-for-Domain-Agnostic-Bangla-ASR)
関連論文リスト
- A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Towards Open-Domain Topic Classification [69.21234350688098]
ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
論文 参考訳(メタデータ) (2023-06-29T20:25:28Z) - Towards hate speech detection in low-resource languages: Comparing ASR
to acoustic word embeddings on Wolof and Swahili [16.424308444697015]
ラジオ放送におけるキーワードスポッティングによるヘイトスピーチの検出について検討する。
1つのアプローチは、ターゲットとする低リソース言語のための自動音声認識システムを構築することである。
音声セグメントを類似したベクトルを持つ空間にマッピングする音響単語埋め込みモデルと比較する。
論文 参考訳(メタデータ) (2023-06-01T07:25:10Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Effectiveness of text to speech pseudo labels for forced alignment and
cross lingual pretrained models for low resource speech recognition [0.0]
本稿では,Maithili,Bhojpuri,Dogriのラベル付きデータ作成手法を提案する。
すべてのデータとモデルはオープンドメインで利用可能である。
論文 参考訳(メタデータ) (2022-03-31T06:12:52Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - ConCET: Entity-Aware Topic Classification for Open-Domain Conversational
Agents [9.870634472479571]
ConCET: Concurrent Entity-aware conversational Topic Classifierを紹介する。
本稿では,合成学習データを生成するための簡便で効果的な手法を提案する。
我々はAmazon Alexa Prizeの一部として収集された実際のユーザとの人間と機械の会話の大規模なデータセットでConCETを評価した。
論文 参考訳(メタデータ) (2020-05-28T06:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。