論文の概要: A Holistic Framework for Robust Bangla ASR and Speaker Diarization with Optimized VAD and CTC Alignment
- arxiv url: http://arxiv.org/abs/2602.22935v1
- Date: Thu, 26 Feb 2026 12:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.678348
- Title: A Holistic Framework for Robust Bangla ASR and Speaker Diarization with Optimized VAD and CTC Alignment
- Title(参考訳): 最適VADとCTCアライメントを用いたロバストバングラASRと話者ダイアリゼーションのための全体的枠組み
- Authors: Zarif Ishmam, Zarif Mahir, Shafnan Wasif, Md. Ishtiak Moin,
- Abstract要約: 本稿では,Banglaコンテンツの拡張に特化して構築されたロバストなフレームワークを提案する。
提案手法は,Voice Activity Detection(VAD)最適化とConnectionist Temporal Classification(CTC)セグメンテーションを利用する。
複雑なマルチスピーカ環境におけるパフォーマンスギャップを埋めることによって、この作業は、実世界の長期のBangla音声アプリケーションにスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite being one of the most widely spoken languages globally, Bangla remains a low-resource language in the field of Natural Language Processing (NLP). Mainstream Automatic Speech Recognition (ASR) and Speaker Diarization systems for Bangla struggles when processing longform audio exceeding 3060 seconds. This paper presents a robust framework specifically engineered for extended Bangla content by leveraging preexisting models enhanced with novel optimization pipelines for the DL Sprint 4.0 contest. Our approach utilizes Voice Activity Detection (VAD) optimization and Connectionist Temporal Classification (CTC) segmentation via forced word alignment to maintain temporal accuracy and transcription integrity over long durations. Additionally, we employed several finetuning techniques and preprocessed the data using augmentation techniques and noise removal. By bridging the performance gap in complex, multi-speaker environments, this work provides a scalable solution for real-world, longform Bangla speech applications.
- Abstract(参考訳): バングラ語は世界中で最も広く話されている言語の一つだが、自然言語処理(NLP)の分野では依然として低リソース言語である。
バングラ語における主ストリーム自動音声認識(ASR)と話者ダイアリゼーションシステムは,3060秒を超える長音処理に苦慮する。
本稿では,DL Sprint 4.0コンテストのために,新たな最適化パイプラインで拡張された既存モデルを活用することで,Banglaコンテンツの拡張に特化して開発されたロバストなフレームワークを提案する。
本稿では,Voice Activity Detection (VAD) の最適化と強制単語アライメントによるコネクショニスト時間分類 (CTC) のセグメンテーションを用いて,長期にわたって時間的精度と転写整合性を維持する。
さらに、いくつかの微調整技術を採用し、拡張技術とノイズ除去を用いてデータを前処理した。
複雑なマルチスピーカ環境におけるパフォーマンスギャップを埋めることによって、この作業は、実世界の長期のBangla音声アプリケーションにスケーラブルなソリューションを提供する。
関連論文リスト
- Make It Hard to Hear, Easy to Learn: Long-Form Bengali ASR and Speaker Diarization via Extreme Augmentation and Perfect Alignment [0.0]
Lipi-Ghor-882は、882時間のマルチスピーカーBengaliデータセットである。
ASRでは、生データスケーリングが非効率であることを示し、代わりに、合成音響劣化と組み合わせた完全整合アノテーションを用いた微調整を目標とした。
話者ダイアリゼーションでは、この複雑なデータセットでは、グローバルなオープンソースステート・オブ・ザ・アートモデルのパフォーマンスが驚くほど低かった。
論文 参考訳(メタデータ) (2026-02-26T14:59:24Z) - Robust Long-Form Bangla Speech Processing: Automatic Speech Recognition and Speaker Diarization [0.0]
我々は,ベンガル語長文音声認識と話者ダイアリゼーションのためのエンドツーエンドシステムについて,Kaggle の DL Sprint 4.0 コンペティションに提出した。
ベンガル語は、大きな音素の在庫、重要な方言の変化、英語との頻繁なコードミキシング、大規模なラベル付きコーパスの相対的不足など、両方のタスクに重大な課題を提示している。
実験により,低リソースのベンガル音声処理において,ドメイン固有のセグメンテーション成分の微調整,発声音源分離,自然なサイレントアウェア・チャンキングが3つの最も影響のある設計選択であることが示された。
論文 参考訳(メタデータ) (2026-02-25T09:52:32Z) - BanglaRobustNet: A Hybrid Denoising-Attention Architecture for Robust Bangla Speech Recognition [0.0]
バングラ語は最も広く話されている言語の一つで、現在最先端の自動音声認識研究において不足している。
本稿では, Wav2Vec-BERT 上に構築されたハイブリッドデノイングアテンションフレームワーク BanglaRobustNet について述べる。
論文 参考訳(メタデータ) (2026-01-25T03:53:14Z) - BanglaTalk: Towards Real-Time Speech Assistance for Bengali Regional Dialects [0.0]
バングラTalkはベンガル地方方言の最初のリアルタイム音声支援システムである。
BanglaTalkはクライアントサーバアーキテクチャに従い、低レイテンシ通信を保証するためにリアルタイムトランスポートプロトコル(RTP)を使用する。
24kbpsの低帯域で動作でき、平均的なエンドツーエンド遅延は4.9秒である。
論文 参考訳(メタデータ) (2025-10-07T17:47:39Z) - VibeVoice Technical Report [90.14596405668135]
VibeVoiceは、複数の話者で長めの音声を合成するために設計されたモデルである。
本稿では,エンコーデックモデルと比較した場合,データ圧縮を80倍改善する新しい連続音声トークンを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:09:12Z) - Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice [52.747242157396315]
同時解釈 (SI) は、翻訳業界における最強のフロンティアの1つである。
Seed-LiveInterpret 2.0は、音声のクローン機能を備えた高忠実で低レイテンシな音声音声合成を実現するエンドツーエンドのSIモデルである。
論文 参考訳(メタデータ) (2025-07-23T14:07:41Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。