Fugu-MT 論文翻訳(概要): Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition

論文の概要: Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition

arxiv url: http://arxiv.org/abs/2311.03196v1
Date: Mon, 6 Nov 2023 15:37:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 14:02:59.384253
Title: Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition
Title（参考訳）: ドメイン非依存バングラ自動音声認識のための擬似ラベル
Authors: Rabindra Nath Nandi, Mehadi Hasan Menon, Tareq Al Muntasir, Sagor Sarker, Quazi Sarwar Muhtaseem, Md. Tariqul Islam, Shammur Absar Chowdhury, Firoj Alam
Abstract要約: 本研究では,大規模ドメインに依存しないASRデータセットを構築するための擬似ラベル手法を提案する。さまざまな話題,話し方,方言,騒々しい環境,会話シナリオを含む20k時間以上のラベル付きバングラ音声データセットを開発した。トレーニングされたASRを公開データセットでベンチマークし、他の利用可能なモデルと比較しました。本研究は,設計したテストセットの擬似ラベルデータに基づいてトレーニングしたモデルと,公開されているBanglaデータセットの有効性を実証するものである。
参考スコア（独自算出の注目度）: 10.244515100904144
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: One of the major challenges for developing automatic speech recognition (ASR) for low-resource languages is the limited access to labeled data with domain-specific variations. In this study, we propose a pseudo-labeling approach to develop a large-scale domain-agnostic ASR dataset. With the proposed methodology, we developed a 20k+ hours labeled Bangla speech dataset covering diverse topics, speaking styles, dialects, noisy environments, and conversational scenarios. We then exploited the developed corpus to design a conformer-based ASR system. We benchmarked the trained ASR with publicly available datasets and compared it with other available models. To investigate the efficacy, we designed and developed a human-annotated domain-agnostic test set composed of news, telephony, and conversational data among others. Our results demonstrate the efficacy of the model trained on psuedo-label data for the designed test-set along with publicly-available Bangla datasets. The experimental resources will be publicly available.(https://github.com/hishab-nlp/Pseudo-Labeling-for-Domain-Agnostic-Bangla-ASR)
Abstract（参考訳）: 低リソース言語のための自動音声認識(ASR)を開発する上での大きな課題の1つは、ドメイン固有のバリエーションを持つラベル付きデータへのアクセス制限である。本研究では,大規模ドメインに依存しないasrデータセットを開発するための擬似ラベル手法を提案する。提案手法を用いて,多様な話題,話し方,方言,騒々しい環境,会話シナリオを対象とする20k時間以上のBangla音声データセットを開発した。次に,開発したコーパスを利用してコンバータベースのASRシステムを設計した。トレーニングされたASRを公開データセットでベンチマークし、他の利用可能なモデルと比較しました。有効性を調べるために,ニュース,電話,会話データなどからなる人間に注釈を付したドメイン非依存テストセットを設計・開発した。本研究は,設計したテストセットの擬似ラベルデータに基づいてトレーニングしたモデルと,公開されているBanglaデータセットの有効性を示す。実験的なリソースは公開される予定だ。 (https://github.com/hishab-nlp/Pseudo-Labeling-for-Domain-Agnostic-Bangla-ASR)

関連論文リスト

Supplementary Resources and Analysis for Automatic Speech Recognition Systems Trained on the Loquacious Dataset [17.057123247712443]
Loquaciousデータセットは、LibriSpeechやTED-Liumといった既存の英語自動音声認識(ASR)データセットを置き換えることを目的としている。 Loquaciousデータセットの主な目標は、多くの音響および言語ドメイン間で適切に定義されたトレーニングとテストのパーティションを提供することである。我々は,N-gram Language Model (LM) , Grapheme-to-phoneme (G2P) モデル, 発音レキシカの形式で, オープンかつパブリックなアクセスを提供する。
論文参考訳（メタデータ） (2025-11-27T22:47:52Z)
AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。 AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文参考訳（メタデータ） (2025-08-29T07:40:39Z)
Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。 OV-AVEBenchデータセットを提案する。
論文参考訳（メタデータ） (2024-11-18T04:35:20Z)
Empowering Low-Resource Language ASR via Large-Scale Pseudo Labeling [24.870429379543193]
我々は、Hindiに焦点をあてて、ASRの低リソース言語のための限定ラベル付きデータに挑戦する。本フレームワークは,音声とテキストのペアを評価するための複数のベースモデルと評価器を統合し,低リソース言語に対するロバストな擬似ラベリングを実現する。我々は,複数のコンテンツカテゴリの多様なYouTubeオーディオファイルからなる新しいベンチマークであるIndicYTを用いて,アプローチを検証する。
論文参考訳（メタデータ） (2024-08-26T05:36:35Z)
Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。 DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。 10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-20T01:34:13Z)
OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文参考訳（メタデータ） (2024-07-10T17:05:49Z)
Towards Open-Domain Topic Classification [69.21234350688098]
ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
論文参考訳（メタデータ） (2023-06-29T20:25:28Z)
Towards hate speech detection in low-resource languages: Comparing ASR to acoustic word embeddings on Wolof and Swahili [16.424308444697015]
ラジオ放送におけるキーワードスポッティングによるヘイトスピーチの検出について検討する。 1つのアプローチは、ターゲットとする低リソース言語のための自動音声認識システムを構築することである。音声セグメントを類似したベクトルを持つ空間にマッピングする音響単語埋め込みモデルと比較する。
論文参考訳（メタデータ） (2023-06-01T07:25:10Z)
Effectiveness of text to speech pseudo labels for forced alignment and cross lingual pretrained models for low resource speech recognition [0.0]
本稿では,Maithili,Bhojpuri,Dogriのラベル付きデータ作成手法を提案する。すべてのデータとモデルはオープンドメインで利用可能である。
論文参考訳（メタデータ） (2022-03-31T06:12:52Z)
On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文参考訳（メタデータ） (2021-12-14T18:49:26Z)
SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文参考訳（メタデータ） (2021-11-19T18:59:23Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文参考訳（メタデータ） (2021-10-09T15:06:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。