論文の概要: Robust Long-Form Bangla Speech Processing: Automatic Speech Recognition and Speaker Diarization
- arxiv url: http://arxiv.org/abs/2602.21741v1
- Date: Wed, 25 Feb 2026 09:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.784738
- Title: Robust Long-Form Bangla Speech Processing: Automatic Speech Recognition and Speaker Diarization
- Title(参考訳): 頑健な長文バングラ音声処理:自動音声認識と話者ダイアリゼーション
- Authors: MD. Sagor Chowdhury, Adiba Fairooz Chowdhury,
- Abstract要約: 我々は,ベンガル語長文音声認識と話者ダイアリゼーションのためのエンドツーエンドシステムについて,Kaggle の DL Sprint 4.0 コンペティションに提出した。
ベンガル語は、大きな音素の在庫、重要な方言の変化、英語との頻繁なコードミキシング、大規模なラベル付きコーパスの相対的不足など、両方のタスクに重大な課題を提示している。
実験により,低リソースのベンガル音声処理において,ドメイン固有のセグメンテーション成分の微調整,発声音源分離,自然なサイレントアウェア・チャンキングが3つの最も影響のある設計選択であることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe our end-to-end system for Bengali long-form speech recognition (ASR) and speaker diarization submitted to the DL Sprint 4.0 competition on Kaggle. Bengali presents substantial challenges for both tasks: a large phoneme inventory, significant dialectal variation, frequent code-mixing with English, and a relative scarcity of large-scale labelled corpora. For ASR we achieve a best private Word Error Rate (WER) of 0.37738 and public WER of 0.36137, combining a BengaliAI fine-tuned Whisper medium model with Demucs source separation for vocal isolation, silence-boundary chunking, and carefully tuned generation hyperparameters. For speaker diarization we reach a best private Diarization Error Rate (DER) of 0.27671 and public DER of 0.20936 by replacing the default segmentation model inside the pyannote.audio pipeline with a Bengali-fine-tuned variant, pairing it with wespeaker-voxceleb-resnet34-LM embeddings and centroid-based agglomerative clustering. Our experiments demonstrate that domain-specific fine-tuning of the segmentation component, vocal source separation, and natural silence-aware chunking are the three most impactful design choices for low-resource Bengali speech processing.
- Abstract(参考訳): 本稿では,ベンガル語長文音声認識(ASR)と話者ダイアリゼーションのためのエンドツーエンドシステムについて述べる。
ベンガル語は、大きな音素の在庫、重要な方言の変化、英語との頻繁なコードミキシング、大規模なラベル付きコーパスの相対的不足など、両方のタスクに重大な課題を提示している。
ASR では 0.37738 の単語誤り率 (WER) と 0.36137 の公開 WER を,BengaliAI の微調整Whisper モデルとDemucs の音源分離と組み合わせて, 発声分離, サイレント・バウンダリー・チャンキング, 注意深く調整した生成ハイパーパラメータを比較検討した。
話者ダイアリゼーションでは、pyannote.audioパイプライン内のデフォルトセグメンテーションモデルをBengali-fine-tuned variantに置き換え、Wespeaker-voxceleb-resnet34-LM埋め込みとCentroid-based agglomerative clusteringと組み合わせることで、0.27671の最高のプライベートダイアリゼーションエラーレート(DER)と0.20936のパブリックDERに達する。
実験により,低リソースのベンガル音声処理において,ドメイン固有のセグメンテーション成分の微調整,発声音源分離,自然なサイレントアウェア・チャンキングが3つの最も影響のある設計選択であることが示された。
関連論文リスト
- BanglaRobustNet: A Hybrid Denoising-Attention Architecture for Robust Bangla Speech Recognition [0.0]
バングラ語は最も広く話されている言語の一つで、現在最先端の自動音声認識研究において不足している。
本稿では, Wav2Vec-BERT 上に構築されたハイブリッドデノイングアテンションフレームワーク BanglaRobustNet について述べる。
論文 参考訳(メタデータ) (2026-01-25T03:53:14Z) - Multi-Level Embedding Conformer Framework for Bengali Automatic Speech Recognition [2.235406148098187]
本研究では,Bengali ASRのエンドツーエンドフレームワークを提案する。
マルチレベル埋め込み融合機構を備えたConformer-CTCバックボーン上に構築されている。
このモデルは、きめ細かい音素の手がかりと高レベルの文脈パターンをキャプチャする。
論文 参考訳(メタデータ) (2025-12-23T04:39:12Z) - A2TTS: TTS for Low Resource Indian Languages [16.782842482372427]
未確認話者のための音声生成を目的とした話者条件付きテキスト音声合成システム(TTS)を提案する。
拡散型TSアーキテクチャを用いて、話者エンコーダは、複数話者生成のためのDDPMデコーダを条件に、短い参照オーディオサンプルから埋め込みを抽出する。
我々は、参照音声を利用するクロスアテンションに基づく継続時間予測機構を採用し、より正確で話者の一貫性のあるタイミングを可能にする。
論文 参考訳(メタデータ) (2025-07-21T06:20:27Z) - CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - A Data-Driven Investigation of Noise-Adaptive Utterance Generation with
Linguistic Modification [25.082714256583422]
騒々しい環境では、スピーチは人間にとって理解しにくい。
通常の聴覚を持つ母語話者が知覚するバブルノイズにおける900パラフレーズのデータセットを作成する。
その結果, SNR -5 dBでは, パラフレーズの選択が33%向上することが判明した。
論文 参考訳(メタデータ) (2022-10-19T02:20:17Z) - Bangla-Wave: Improving Bangla Automatic Speech Recognition Utilizing
N-gram Language Models [0.0]
ポストプロセッサとしてn-gram言語モデルを追加することにより,ASRモデルの性能を大幅に向上させる方法について述べる。
我々は既存のASRモデルよりも優れた堅牢なBangla ASRモデルを生成する。
論文 参考訳(メタデータ) (2022-09-13T17:59:21Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。