論文の概要: WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech
- arxiv url: http://arxiv.org/abs/2603.04809v1
- Date: Thu, 05 Mar 2026 04:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.074204
- Title: WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech
- Title(参考訳): WhisperAlign:WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech (英語)
- Authors: Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees,
- Abstract要約: 本稿では,ベンガル語長形音声認識と話者ダイアリゼーションの2つの課題について述べる。
ウィスパータイムスタンプを用いてロバストな音声チャンキング戦略を実装し、高精度な転写のための微調整音響モデルに精度の高いコンテキスト認識セグメントを供給できるようにする。
ダイアリゼーションタスクのために, pyannote.audio と WhisperX を利用した統合パイプラインを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our solution for the DL Sprint 4.0, addressing the dual challenges of Bengali Long-Form Speech Recognition (Task 1) and Speaker Diarization (Task 2). Processing long-form, multi-speaker Bengali audio introduces significant hurdles in voice activity detection, overlapping speech, and context preservation. To solve the long-form transcription challenge, we implemented a robust audio chunking strategy utilizing whisper-timestamped, allowing us to feed precise, context-aware segments into our fine-tuned acoustic model for high-accuracy transcription. For the diarization task, we developed an integrated pipeline leveraging pyannote.audio and WhisperX. A key contribution of our approach is the domain-specific fine-tuning of the Pyannote segmentation model on the competition dataset. This adaptation allowed the model to better capture the nuances of Bengali conversational dynamics and accurately resolve complex, overlapping speaker boundaries. Our methodology demonstrates that applying intelligent timestamped chunking to ASR and targeted segmentation fine-tuning to diarization significantly drives down Word Error Rate (WER) and Diarization Error Rate (DER), in low-resource settings.
- Abstract(参考訳): 本稿では,Bengali Long-Form Speech Recognition (Task 1) と Speaker Diarization (Task2) の2つの課題に対処する,DL Sprint 4.0 のソリューションを提案する。
長めのマルチスピーカ・ベンガル音声の処理は、音声活動の検出、重なり合う音声、文脈保存において大きなハードルをもたらす。
長文書き起こしの課題を解決するため,ウィスパータイムスタンプを用いた頑健な音声チャンキング戦略を実装し,高精度な書き起こしのための微調整音響モデルに精度の高いコンテキスト認識セグメントを供給できるようにした。
ダイアリゼーションタスクのために, pyannote.audio と WhisperX を利用した統合パイプラインを開発した。
我々のアプローチの重要な貢献は、競合データセット上のPyannoteセグメンテーションモデルのドメイン固有の微調整である。
この適応により、モデルはベンガルの会話力学のニュアンスをよりよく捉え、複雑で重なり合う話者境界を正確に解決することができた。
提案手法は, 単語誤り率 (WER) とダイアリゼーション誤り率 (DER) を低リソース環境下で著しく低下させることを実証する。
関連論文リスト
- An Investigation Into Various Approaches For Bengali Long-Form Speech Transcription and Bengali Speaker Diarization [0.0]
本稿では,Kaggle における "DL Sprint 4.0 - Bengali Long-Form Speech Recognition" と "DL Sprint 4.0 - Bengali Speaker Diarization" のための多段階アプローチを提案する。
我々は,Bengaliデータに微調整したWhisper Mediumを実装し,Pyannote/Speaker-diarization-community-1とカスタムトレーニングセグメンテーションモデルを統合した。
その結果、ターゲットチューニングと戦略的データ利用は、南アジアの言語におけるAIを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2026-03-03T17:00:42Z) - Make It Hard to Hear, Easy to Learn: Long-Form Bengali ASR and Speaker Diarization via Extreme Augmentation and Perfect Alignment [0.0]
Lipi-Ghor-882は、882時間のマルチスピーカーBengaliデータセットである。
ASRでは、生データスケーリングが非効率であることを示し、代わりに、合成音響劣化と組み合わせた完全整合アノテーションを用いた微調整を目標とした。
話者ダイアリゼーションでは、この複雑なデータセットでは、グローバルなオープンソースステート・オブ・ザ・アートモデルのパフォーマンスが驚くほど低かった。
論文 参考訳(メタデータ) (2026-02-26T14:59:24Z) - A Holistic Framework for Robust Bangla ASR and Speaker Diarization with Optimized VAD and CTC Alignment [0.0]
本稿では,Banglaコンテンツの拡張に特化して構築されたロバストなフレームワークを提案する。
提案手法は,Voice Activity Detection(VAD)最適化とConnectionist Temporal Classification(CTC)セグメンテーションを利用する。
複雑なマルチスピーカ環境におけるパフォーマンスギャップを埋めることによって、この作業は、実世界の長期のBangla音声アプリケーションにスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2026-02-26T12:26:04Z) - Robust Long-Form Bangla Speech Processing: Automatic Speech Recognition and Speaker Diarization [0.0]
我々は,ベンガル語長文音声認識と話者ダイアリゼーションのためのエンドツーエンドシステムについて,Kaggle の DL Sprint 4.0 コンペティションに提出した。
ベンガル語は、大きな音素の在庫、重要な方言の変化、英語との頻繁なコードミキシング、大規模なラベル付きコーパスの相対的不足など、両方のタスクに重大な課題を提示している。
実験により,低リソースのベンガル音声処理において,ドメイン固有のセグメンテーション成分の微調整,発声音源分離,自然なサイレントアウェア・チャンキングが3つの最も影響のある設計選択であることが示された。
論文 参考訳(メタデータ) (2026-02-25T09:52:32Z) - VIBEVOICE-ASR Technical Report [95.57263110940973]
VibeVoice-ASRは、ロングフォームオーディオにおけるコンテキスト断片化とマルチスピーカー複雑性の課題に対処する。
50以上の言語をサポートし、明示的な言語設定を必要としない。
論文 参考訳(メタデータ) (2026-01-26T06:11:51Z) - Continual Speech Learning with Fused Speech Features [49.21227244653524]
本稿では,現在の音声モデルにおける適応ギャップを埋めることを目的とした,新たな設定ターゲットである連続音声認識を紹介する。
我々は,エンコーダ・デコーダWhisperモデルを用いて音声タスクを生成形式に標準化する。
提案手法は,6つの音声処理タスクにおいて従来の手法よりも精度が向上し,完全再訓練を伴わずに新しい音声処理タスクに適応できることが示唆された。
論文 参考訳(メタデータ) (2025-06-02T09:59:35Z) - WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models [49.725968706743586]
WavRAGは、ネイティブなエンドツーエンドオーディオをサポートする最初の検索拡張生成フレームワークである。
本稿では,テキストとオーディオのハイブリッド知識ベースからの検索を容易にするために,WavRetrieverを提案する。
最先端のASR-Text RAGパイプラインと比較して、WavRAGは10倍の高速化を実現しつつ、同等の検索性能を実現している。
論文 参考訳(メタデータ) (2025-02-20T16:54:07Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。