論文の概要: Robust Long-Form Bangla Speech Processing: Automatic Speech Recognition and Speaker Diarization
- arxiv url: http://arxiv.org/abs/2602.21741v1
- Date: Wed, 25 Feb 2026 09:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.784738
- Title: Robust Long-Form Bangla Speech Processing: Automatic Speech Recognition and Speaker Diarization
- Title(参考訳): 頑健な長文バングラ音声処理:自動音声認識と話者ダイアリゼーション
- Authors: MD. Sagor Chowdhury, Adiba Fairooz Chowdhury,
- Abstract要約: 我々は,ベンガル語長文音声認識と話者ダイアリゼーションのためのエンドツーエンドシステムについて,Kaggle の DL Sprint 4.0 コンペティションに提出した。
ベンガル語は、大きな音素の在庫、重要な方言の変化、英語との頻繁なコードミキシング、大規模なラベル付きコーパスの相対的不足など、両方のタスクに重大な課題を提示している。
実験により,低リソースのベンガル音声処理において,ドメイン固有のセグメンテーション成分の微調整,発声音源分離,自然なサイレントアウェア・チャンキングが3つの最も影響のある設計選択であることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe our end-to-end system for Bengali long-form speech recognition (ASR) and speaker diarization submitted to the DL Sprint 4.0 competition on Kaggle. Bengali presents substantial challenges for both tasks: a large phoneme inventory, significant dialectal variation, frequent code-mixing with English, and a relative scarcity of large-scale labelled corpora. For ASR we achieve a best private Word Error Rate (WER) of 0.37738 and public WER of 0.36137, combining a BengaliAI fine-tuned Whisper medium model with Demucs source separation for vocal isolation, silence-boundary chunking, and carefully tuned generation hyperparameters. For speaker diarization we reach a best private Diarization Error Rate (DER) of 0.27671 and public DER of 0.20936 by replacing the default segmentation model inside the pyannote.audio pipeline with a Bengali-fine-tuned variant, pairing it with wespeaker-voxceleb-resnet34-LM embeddings and centroid-based agglomerative clustering. Our experiments demonstrate that domain-specific fine-tuning of the segmentation component, vocal source separation, and natural silence-aware chunking are the three most impactful design choices for low-resource Bengali speech processing.
- Abstract(参考訳): 本稿では,ベンガル語長文音声認識(ASR)と話者ダイアリゼーションのためのエンドツーエンドシステムについて述べる。
ベンガル語は、大きな音素の在庫、重要な方言の変化、英語との頻繁なコードミキシング、大規模なラベル付きコーパスの相対的不足など、両方のタスクに重大な課題を提示している。
ASR では 0.37738 の単語誤り率 (WER) と 0.36137 の公開 WER を,BengaliAI の微調整Whisper モデルとDemucs の音源分離と組み合わせて, 発声分離, サイレント・バウンダリー・チャンキング, 注意深く調整した生成ハイパーパラメータを比較検討した。
話者ダイアリゼーションでは、pyannote.audioパイプライン内のデフォルトセグメンテーションモデルをBengali-fine-tuned variantに置き換え、Wespeaker-voxceleb-resnet34-LM埋め込みとCentroid-based agglomerative clusteringと組み合わせることで、0.27671の最高のプライベートダイアリゼーションエラーレート(DER)と0.20936のパブリックDERに達する。
実験により,低リソースのベンガル音声処理において,ドメイン固有のセグメンテーション成分の微調整,発声音源分離,自然なサイレントアウェア・チャンキングが3つの最も影響のある設計選択であることが示された。
関連論文リスト
- WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech [0.0]
本稿では,ベンガル語長形音声認識と話者ダイアリゼーションの2つの課題について述べる。
ウィスパータイムスタンプを用いてロバストな音声チャンキング戦略を実装し、高精度な転写のための微調整音響モデルに精度の高いコンテキスト認識セグメントを供給できるようにする。
ダイアリゼーションタスクのために, pyannote.audio と WhisperX を利用した統合パイプラインを開発した。
論文 参考訳(メタデータ) (2026-03-05T04:54:11Z) - An Investigation Into Various Approaches For Bengali Long-Form Speech Transcription and Bengali Speaker Diarization [0.0]
本稿では,Kaggle における "DL Sprint 4.0 - Bengali Long-Form Speech Recognition" と "DL Sprint 4.0 - Bengali Speaker Diarization" のための多段階アプローチを提案する。
我々は,Bengaliデータに微調整したWhisper Mediumを実装し,Pyannote/Speaker-diarization-community-1とカスタムトレーニングセグメンテーションモデルを統合した。
その結果、ターゲットチューニングと戦略的データ利用は、南アジアの言語におけるAIを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2026-03-03T17:00:42Z) - A Holistic Framework for Robust Bangla ASR and Speaker Diarization with Optimized VAD and CTC Alignment [0.0]
本稿では,Banglaコンテンツの拡張に特化して構築されたロバストなフレームワークを提案する。
提案手法は,Voice Activity Detection(VAD)最適化とConnectionist Temporal Classification(CTC)セグメンテーションを利用する。
複雑なマルチスピーカ環境におけるパフォーマンスギャップを埋めることによって、この作業は、実世界の長期のBangla音声アプリケーションにスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2026-02-26T12:26:04Z) - BanglaRobustNet: A Hybrid Denoising-Attention Architecture for Robust Bangla Speech Recognition [0.0]
バングラ語は最も広く話されている言語の一つで、現在最先端の自動音声認識研究において不足している。
本稿では, Wav2Vec-BERT 上に構築されたハイブリッドデノイングアテンションフレームワーク BanglaRobustNet について述べる。
論文 参考訳(メタデータ) (2026-01-25T03:53:14Z) - Multi-Level Embedding Conformer Framework for Bengali Automatic Speech Recognition [2.235406148098187]
本研究では,Bengali ASRのエンドツーエンドフレームワークを提案する。
マルチレベル埋め込み融合機構を備えたConformer-CTCバックボーン上に構築されている。
このモデルは、きめ細かい音素の手がかりと高レベルの文脈パターンをキャプチャする。
論文 参考訳(メタデータ) (2025-12-23T04:39:12Z) - A2TTS: TTS for Low Resource Indian Languages [16.782842482372427]
未確認話者のための音声生成を目的とした話者条件付きテキスト音声合成システム(TTS)を提案する。
拡散型TSアーキテクチャを用いて、話者エンコーダは、複数話者生成のためのDDPMデコーダを条件に、短い参照オーディオサンプルから埋め込みを抽出する。
我々は、参照音声を利用するクロスアテンションに基づく継続時間予測機構を採用し、より正確で話者の一貫性のあるタイミングを可能にする。
論文 参考訳(メタデータ) (2025-07-21T06:20:27Z) - CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - A Data-Driven Investigation of Noise-Adaptive Utterance Generation with
Linguistic Modification [25.082714256583422]
騒々しい環境では、スピーチは人間にとって理解しにくい。
通常の聴覚を持つ母語話者が知覚するバブルノイズにおける900パラフレーズのデータセットを作成する。
その結果, SNR -5 dBでは, パラフレーズの選択が33%向上することが判明した。
論文 参考訳(メタデータ) (2022-10-19T02:20:17Z) - Bangla-Wave: Improving Bangla Automatic Speech Recognition Utilizing
N-gram Language Models [0.0]
ポストプロセッサとしてn-gram言語モデルを追加することにより,ASRモデルの性能を大幅に向上させる方法について述べる。
我々は既存のASRモデルよりも優れた堅牢なBangla ASRモデルを生成する。
論文 参考訳(メタデータ) (2022-09-13T17:59:21Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。