Fugu-MT 論文翻訳(概要): Make It Hard to Hear, Easy to Learn: Long-Form Bengali ASR and Speaker Diarization via Extreme Augmentation and Perfect Alignment

論文の概要: Make It Hard to Hear, Easy to Learn: Long-Form Bengali ASR and Speaker Diarization via Extreme Augmentation and Perfect Alignment

arxiv url: http://arxiv.org/abs/2602.23070v1
Date: Thu, 26 Feb 2026 14:59:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.732398
Title: Make It Hard to Hear, Easy to Learn: Long-Form Bengali ASR and Speaker Diarization via Extreme Augmentation and Perfect Alignment
Title（参考訳）: 長めのベンガルASRと話者ダイアリゼーションの極端拡張と完全アライメントによる難聴化
Authors: Sanjid Hasan, Risalat Labib, A H M Fuad, Bayazid Hasan,
Abstract要約: Lipi-Ghor-882は、882時間のマルチスピーカーBengaliデータセットである。 ASRでは、生データスケーリングが非効率であることを示し、代わりに、合成音響劣化と組み合わせた完全整合アノテーションを用いた微調整を目標とした。話者ダイアリゼーションでは、この複雑なデータセットでは、グローバルなオープンソースステート・オブ・ザ・アートモデルのパフォーマンスが驚くほど低かった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although Automatic Speech Recognition (ASR) in Bengali has seen significant progress, processing long-duration audio and performing robust speaker diarization remain critical research gaps. To address the severe scarcity of joint ASR and diarization resources for this language, we introduce Lipi-Ghor-882, a comprehensive 882-hour multi-speaker Bengali dataset. In this paper, detailing our submission to the DL Sprint 4.0 competition, we systematically evaluate various architectures and approaches for long-form Bengali speech. For ASR, we demonstrate that raw data scaling is ineffective; instead, targeted fine-tuning utilizing perfectly aligned annotations paired with synthetic acoustic degradation (noise and reverberation) emerges as the singular most effective approach. Conversely, for speaker diarization, we observed that global open-source state-of-the-art models (such as Diarizen) performed surprisingly poorly on this complex dataset. Extensive model retraining yielded negligible improvements; instead, strategic, heuristic post-processing of baseline model outputs proved to be the primary driver for increasing accuracy. Ultimately, this work outlines a highly optimized dual pipeline achieving a $\sim$0.019 Real-Time Factor (RTF), establishing a practical, empirically backed benchmark for low-resource, long-form speech processing.
Abstract（参考訳）: ベンガル語における音声認識(ASR)は大きな進歩を遂げているが、長期音声処理と頑健な話者ダイアリゼーションは依然として重要な研究課題である。この言語のための共同ASRとダイアリゼーション資源の深刻な不足に対処するため、包括的882時間マルチスピーカーBengaliデータセットであるLipi-Ghor-882を導入する。本稿では,DL Sprint 4.0コンペティションへの提案を詳述し,長文ベンガル語に対する様々なアーキテクチャとアプローチを体系的に評価する。 ASRでは、生データスケーリングが非効率であることを示す代わりに、合成音響劣化(ノイズと残響)と組み合わせた完全整合アノテーションを用いた微調整が特異な最も効果的なアプローチとして出現する。逆に、話者ダイアリゼーションでは、この複雑なデータセットでは、グローバルなオープンソースの最先端モデル(Diarizenなど)が驚くほど貧弱であった。大規模なモデル再訓練は無視できる改善をもたらしたが、代わりに、ベースラインモデル出力の戦略的、ヒューリスティックな後処理が精度を高める主要な要因であることが判明した。最終的に、この研究は高度に最適化されたデュアルパイプラインの概要を示し、$\sim$0.019 Real-Time Factor (RTF) を達成し、低リソースの長文音声処理のための実践的で実証的なベンチマークを確立した。

関連論文リスト

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech [0.0]
本稿では,ベンガル語長形音声認識と話者ダイアリゼーションの2つの課題について述べる。ウィスパータイムスタンプを用いてロバストな音声チャンキング戦略を実装し、高精度な転写のための微調整音響モデルに精度の高いコンテキスト認識セグメントを供給できるようにする。ダイアリゼーションタスクのために, pyannote.audio と WhisperX を利用した統合パイプラインを開発した。
論文参考訳（メタデータ） (2026-03-05T04:54:11Z)
A Holistic Framework for Robust Bangla ASR and Speaker Diarization with Optimized VAD and CTC Alignment [0.0]
本稿では,Banglaコンテンツの拡張に特化して構築されたロバストなフレームワークを提案する。提案手法は,Voice Activity Detection(VAD)最適化とConnectionist Temporal Classification(CTC)セグメンテーションを利用する。複雑なマルチスピーカ環境におけるパフォーマンスギャップを埋めることによって、この作業は、実世界の長期のBangla音声アプリケーションにスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2026-02-26T12:26:04Z)
Multi-Level Embedding Conformer Framework for Bengali Automatic Speech Recognition [2.235406148098187]
本研究では,Bengali ASRのエンドツーエンドフレームワークを提案する。マルチレベル埋め込み融合機構を備えたConformer-CTCバックボーン上に構築されている。このモデルは、きめ細かい音素の手がかりと高レベルの文脈パターンをキャプチャする。
論文参考訳（メタデータ） (2025-12-23T04:39:12Z)
Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。 Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文参考訳（メタデータ） (2025-09-15T23:19:36Z)
Recent Trends in Distant Conversational Speech Recognition: A Review of CHiME-7 and 8 DASR Challenges [63.741916531380696]
CHiME-7と8つの遠隔音声認識(DASR)の課題は、多チャンネル、一般化可能、共同自動音声認識(ASR)、対話音声のダイアリゼーションである。本稿では,参加者からの重要傾向を分析しつつ,課題の設計,評価指標,データセット,ベースラインシステムについて概説する。
論文参考訳（メタデータ） (2025-07-24T07:56:24Z)
Cocktail-Party Audio-Visual Speech Recognition [58.222892601847924]
本研究では,現在のAVSRシステムのベンチマークを行うために設計された,新しい音声-視覚カクテルパーティデータセットを提案する。音声とサイレント顔の両方からなる1526時間AVSRデータセットをコントリビュートし,カクテルパーティー環境における顕著な性能向上を実現した。我々の手法は、WERを最先端と比較して67%削減し、WERを明示的なセグメンテーション手法に頼ることなく、極音の119%から39.2%に削減する。
論文参考訳（メタデータ） (2025-06-02T19:07:51Z)
Towards Pretraining Robust ASR Foundation Model with Acoustic-Aware Data Augmentation [18.678742816040856]
自動音声認識(ASR)におけるウィスパーの頑健な性能は、しばしば680khのトレーニングセットによるものである。訓練データにおける言語的および音響的多様性がASRモデルの堅牢性に与える影響について検討する。 ASRモデルの一般化能力を大幅に向上させることが期待できる。
論文参考訳（メタデータ） (2025-05-27T00:55:32Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
Extending Whisper with prompt tuning to target-speaker ASR [18.31992429200396]
ターゲット話者自動音声認識(Target-Speaker Automatic Speech Recognition, ASR)は、ターゲット話者の所望の音声を重なり合う発話から書き起こすことを目的としている。既存のターゲットスピーカーASR(TS-ASR)の手法のほとんどは、スクラッチからトレーニングするか、事前訓練されたモデルを完全に微調整するものである。この研究は、パラメータ効率のよい微調整手法であるプロンプトチューニングを利用して、大規模なシングルストーカーASRモデルであるWhisperをTS-ASRに拡張する。
論文参考訳（メタデータ） (2023-12-13T11:49:16Z)
Exploring the Integration of Speech Separation and Recognition with Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。 TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文参考訳（メタデータ） (2023-07-23T05:39:39Z)
Raw Waveform Encoder with Multi-Scale Globally Attentive Locally Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文参考訳（メタデータ） (2021-06-08T12:12:33Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)
Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。 CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。 RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文参考訳（メタデータ） (2020-04-22T19:08:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。