論文の概要: ShobdoSetu: A Data-Centric Framework for Bengali Long-Form Speech Recognition and Speaker Diarization
- arxiv url: http://arxiv.org/abs/2603.19256v1
- Date: Wed, 25 Feb 2026 18:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.788407
- Title: ShobdoSetu: A Data-Centric Framework for Bengali Long-Form Speech Recognition and Speaker Diarization
- Title(参考訳): ShobdoSetu:ベンガル語音声認識と話者ダイアリゼーションのためのデータ中心フレームワーク
- Authors: Md. Nazmus Sakib, Shafiul Tanvir, Mesbah Uddin Ahamed, H. M. Aktaruzzaman Mukdho,
- Abstract要約: 本稿では, DL Sprint 4.0 Bengali Long-Form Speech Recognition (Task1) と Bengali Speaker Diarization Challenge (Task2) について述べる。
Task1では、ベンガルのYouTubeオーディオブックとドラマから高品質なトレーニングコーパスを構築するデータ中心パイプラインを提案する。
我々は、公開リーダーボードで16.751、プライベートテストセットで15.551の単語誤り率(WER)を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bengali is spoken by over 230 million people yet remains severely under-served in automatic speech recognition (ASR) and speaker diarization research. In this paper, we present our system for the DL Sprint 4.0 Bengali Long-Form Speech Recognition (Task~1) and Bengali Speaker Diarization Challenge (Task~2). For Task~1, we propose a data-centric pipeline that constructs a high-quality training corpus from Bengali YouTube audiobooks and dramas \cite{tabib2026bengaliloop}, incorporating LLM-assisted language normalization, fuzzy-matching-based chunk boundary validation, and muffled-zone augmentation. Fine-tuning the \texttt{tugstugi/whisper-medium} model on approximately 21,000 data points with beam size 5, we achieve a Word Error Rate (WER) of 16.751 on the public leaderboard and 15.551 on the private test set. For Task~2, we fine-tune the pyannote.audio community-1 segmentation model with targeted hyperparameter optimization under an extreme low-resource setting (10 training files), achieving a Diarization Error Rate (DER) of 0.19974 on the public leaderboard, and .26723 on the private test set. Our results demonstrate that careful data engineering and domain-adaptive fine-tuning can yield competitive performance for Bengali speech processing even without large annotated corpora.
- Abstract(参考訳): ベンガル語は2億3000万人を超える人々によって話されているが、自動音声認識(ASR)や話者ダイアリゼーション研究では、いまだに過小評価されていない。
本稿では, DL Sprint 4.0 Bengali Long-Form Speech Recognition (Task~1) と Bengali Speaker Diarization Challenge (Task~2) について述べる。
Task~1では,ベンガルのYouTubeオーディオブックやドラマ『cite{tabib2026bengaliloop}』から高品質なトレーニングコーパスを構築するデータ中心パイプラインを提案する。
ビームサイズ5の約21,000のデータポイント上でのtexttt{tugstugi/whisper-medium} モデルを微調整し、パブリックリーダーボードで16.751、プライベートテストセットで15.551のワードエラー率(WER)を達成する。
Task~2では、極端に低リソース設定(10トレーニングファイル)下でのハイパーパラメータ最適化を目標としたpyannote.audio community-1セグメンテーションモデルを微調整し、公開リーダボードで0.19974のダイアリゼーションエラーレート(DER)、プライベートテストセットで.26723を達成する。
以上の結果から, 注意深いデータ工学とドメイン適応微調整は, 注釈付きコーパスを伴わずとも, ベンガル音声処理の競争性能を向上できることが示された。
関連論文リスト
- WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech [0.0]
本稿では,ベンガル語長形音声認識と話者ダイアリゼーションの2つの課題について述べる。
ウィスパータイムスタンプを用いてロバストな音声チャンキング戦略を実装し、高精度な転写のための微調整音響モデルに精度の高いコンテキスト認識セグメントを供給できるようにする。
ダイアリゼーションタスクのために, pyannote.audio と WhisperX を利用した統合パイプラインを開発した。
論文 参考訳(メタデータ) (2026-03-05T04:54:11Z) - An Investigation Into Various Approaches For Bengali Long-Form Speech Transcription and Bengali Speaker Diarization [0.0]
本稿では,Kaggle における "DL Sprint 4.0 - Bengali Long-Form Speech Recognition" と "DL Sprint 4.0 - Bengali Speaker Diarization" のための多段階アプローチを提案する。
我々は,Bengaliデータに微調整したWhisper Mediumを実装し,Pyannote/Speaker-diarization-community-1とカスタムトレーニングセグメンテーションモデルを統合した。
その結果、ターゲットチューニングと戦略的データ利用は、南アジアの言語におけるAIを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2026-03-03T17:00:42Z) - Robust Long-Form Bangla Speech Processing: Automatic Speech Recognition and Speaker Diarization [0.0]
我々は,ベンガル語長文音声認識と話者ダイアリゼーションのためのエンドツーエンドシステムについて,Kaggle の DL Sprint 4.0 コンペティションに提出した。
ベンガル語は、大きな音素の在庫、重要な方言の変化、英語との頻繁なコードミキシング、大規模なラベル付きコーパスの相対的不足など、両方のタスクに重大な課題を提示している。
実験により,低リソースのベンガル音声処理において,ドメイン固有のセグメンテーション成分の微調整,発声音源分離,自然なサイレントアウェア・チャンキングが3つの最も影響のある設計選択であることが示された。
論文 参考訳(メタデータ) (2026-02-25T09:52:32Z) - EuroSpeech: A Multilingual Speech Corpus [35.79691721955664]
議会記録から音声データセットを構築するためのスケーラブルなパイプラインを提案する。
このパイプラインを22の欧州議会の録音に適用し、61万時間以上の一致した音声セグメントを抽出します。
データセット上で既存のASRモデルを微調整した場合,平均41.8%の単語誤り率をベースラインで削減する。
論文 参考訳(メタデータ) (2025-10-01T04:51:45Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。
約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文 参考訳(メタデータ) (2021-06-13T04:09:16Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。