論文の概要: Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2311.03196v1
- Date: Mon, 6 Nov 2023 15:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 14:02:59.384253
- Title: Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition
- Title(参考訳): ドメイン非依存バングラ自動音声認識のための擬似ラベル
- Authors: Rabindra Nath Nandi, Mehadi Hasan Menon, Tareq Al Muntasir, Sagor
Sarker, Quazi Sarwar Muhtaseem, Md. Tariqul Islam, Shammur Absar Chowdhury,
Firoj Alam
- Abstract要約: 本研究では,大規模ドメインに依存しないASRデータセットを構築するための擬似ラベル手法を提案する。
さまざまな話題,話し方,方言,騒々しい環境,会話シナリオを含む20k時間以上のラベル付きバングラ音声データセットを開発した。
トレーニングされたASRを公開データセットでベンチマークし、他の利用可能なモデルと比較しました。
本研究は,設計したテストセットの擬似ラベルデータに基づいてトレーニングしたモデルと,公開されているBanglaデータセットの有効性を実証するものである。
- 参考スコア(独自算出の注目度): 10.244515100904144
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One of the major challenges for developing automatic speech recognition (ASR)
for low-resource languages is the limited access to labeled data with
domain-specific variations. In this study, we propose a pseudo-labeling
approach to develop a large-scale domain-agnostic ASR dataset. With the
proposed methodology, we developed a 20k+ hours labeled Bangla speech dataset
covering diverse topics, speaking styles, dialects, noisy environments, and
conversational scenarios. We then exploited the developed corpus to design a
conformer-based ASR system. We benchmarked the trained ASR with publicly
available datasets and compared it with other available models. To investigate
the efficacy, we designed and developed a human-annotated domain-agnostic test
set composed of news, telephony, and conversational data among others. Our
results demonstrate the efficacy of the model trained on psuedo-label data for
the designed test-set along with publicly-available Bangla datasets. The
experimental resources will be publicly
available.(https://github.com/hishab-nlp/Pseudo-Labeling-for-Domain-Agnostic-Bangla-ASR)
- Abstract(参考訳): 低リソース言語のための自動音声認識(ASR)を開発する上での大きな課題の1つは、ドメイン固有のバリエーションを持つラベル付きデータへのアクセス制限である。
本研究では,大規模ドメインに依存しないasrデータセットを開発するための擬似ラベル手法を提案する。
提案手法を用いて,多様な話題,話し方,方言,騒々しい環境,会話シナリオを対象とする20k時間以上のBangla音声データセットを開発した。
次に,開発したコーパスを利用してコンバータベースのASRシステムを設計した。
トレーニングされたASRを公開データセットでベンチマークし、他の利用可能なモデルと比較しました。
有効性を調べるために,ニュース,電話,会話データなどからなる人間に注釈を付したドメイン非依存テストセットを設計・開発した。
本研究は,設計したテストセットの擬似ラベルデータに基づいてトレーニングしたモデルと,公開されているBanglaデータセットの有効性を示す。
実験的なリソースは公開される予定だ。
(https://github.com/hishab-nlp/Pseudo-Labeling-for-Domain-Agnostic-Bangla-ASR)
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Empowering Low-Resource Language ASR via Large-Scale Pseudo Labeling [24.870429379543193]
我々は、Hindiに焦点をあてて、ASRの低リソース言語のための限定ラベル付きデータに挑戦する。
本フレームワークは,音声とテキストのペアを評価するための複数のベースモデルと評価器を統合し,低リソース言語に対するロバストな擬似ラベリングを実現する。
我々は,複数のコンテンツカテゴリの多様なYouTubeオーディオファイルからなる新しいベンチマークであるIndicYTを用いて,アプローチを検証する。
論文 参考訳(メタデータ) (2024-08-26T05:36:35Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - Towards Open-Domain Topic Classification [69.21234350688098]
ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
論文 参考訳(メタデータ) (2023-06-29T20:25:28Z) - Towards hate speech detection in low-resource languages: Comparing ASR
to acoustic word embeddings on Wolof and Swahili [16.424308444697015]
ラジオ放送におけるキーワードスポッティングによるヘイトスピーチの検出について検討する。
1つのアプローチは、ターゲットとする低リソース言語のための自動音声認識システムを構築することである。
音声セグメントを類似したベクトルを持つ空間にマッピングする音響単語埋め込みモデルと比較する。
論文 参考訳(メタデータ) (2023-06-01T07:25:10Z) - Effectiveness of text to speech pseudo labels for forced alignment and
cross lingual pretrained models for low resource speech recognition [0.0]
本稿では,Maithili,Bhojpuri,Dogriのラベル付きデータ作成手法を提案する。
すべてのデータとモデルはオープンドメインで利用可能である。
論文 参考訳(メタデータ) (2022-03-31T06:12:52Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。