論文の概要: BanglaRobustNet: A Hybrid Denoising-Attention Architecture for Robust Bangla Speech Recognition
- arxiv url: http://arxiv.org/abs/2601.17679v1
- Date: Sun, 25 Jan 2026 03:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.204638
- Title: BanglaRobustNet: A Hybrid Denoising-Attention Architecture for Robust Bangla Speech Recognition
- Title(参考訳): BanglaRobustNet:ロバストなBangla音声認識のためのハイブリッドDenoising-Attentionアーキテクチャ
- Authors: Md Sazzadul Islam Ridoy, Mubaswira Ibnat Zidney, Sumi Akter, Md. Aminur Rahman,
- Abstract要約: バングラ語は最も広く話されている言語の一つで、現在最先端の自動音声認識研究において不足している。
本稿では, Wav2Vec-BERT 上に構築されたハイブリッドデノイングアテンションフレームワーク BanglaRobustNet について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bangla, one of the most widely spoken languages, remains underrepresented in state-of-the-art automatic speech recognition (ASR) research, particularly under noisy and speaker-diverse conditions. This paper presents BanglaRobustNet, a hybrid denoising-attention framework built on Wav2Vec-BERT, designed to address these challenges. The architecture integrates a diffusion-based denoising module to suppress environmental noise while preserving Bangla-specific phonetic cues, and a contextual cross-attention module that conditions recognition on speaker embeddings for robustness across gender, age, and dialects. Trained end-to-end with a composite objective combining CTC loss, phonetic consistency, and speaker alignment, BanglaRobustNet achieves substantial reductions in word error rate (WER) and character error rate (CER) compared to Wav2Vec-BERT and Whisper baselines. Evaluations on Mozilla Common Voice Bangla and augmented noisy speech confirm the effectiveness of our approach, establishing BanglaRobustNet as a robust ASR system tailored to low-resource, noise-prone linguistic settings.
- Abstract(参考訳): 最も広く話されている言語の一つであるバングラ語は、現在最先端の自動音声認識(ASR)研究において、特に雑音や話者の多様性の条件下では、いまだに不足している。
本稿では,これらの課題に対処すべく,Wav2Vec-BERT上に構築されたハイブリッドデノイングアテンションフレームワークであるBanglaRobustNetを提案する。
このアーキテクチャは、Bangla固有の音声キューを保存しながら環境騒音を抑制するために拡散に基づくデノナイジングモジュールと、性別、年齢、方言にまたがる堅牢性のための話者埋め込みに認識を条件付けるコンテキスト横断モジュールを統合する。
単語誤り率 (WER) と文字誤り率 (CER) を Wav2Vec-BERT と Whisper ベースラインと比較して大幅に低減する。
Mozilla Common Voice Bangla と拡張ノイズ音声による評価により,BanglaRobustNet を低リソースで雑音の多い言語設定に適した堅牢な ASR システムとして確立した。
関連論文リスト
- WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - Multi-Level Embedding Conformer Framework for Bengali Automatic Speech Recognition [2.235406148098187]
本研究では,Bengali ASRのエンドツーエンドフレームワークを提案する。
マルチレベル埋め込み融合機構を備えたConformer-CTCバックボーン上に構築されている。
このモデルは、きめ細かい音素の手がかりと高レベルの文脈パターンをキャプチャする。
論文 参考訳(メタデータ) (2025-12-23T04:39:12Z) - Explainable Disentanglement on Discrete Speech Representations for Noise-Robust ASR [37.09163295946173]
本稿では,潜時空間における背景雑音から意味的音声内容を引き離す手法を提案する。
我々のエンドツーエンドモデルは、解釈可能なノイズベクトルを抽出しながら、クリーン音声をコードブックトークンの形で分離する。
提案手法は、クリーン/ノイズの多い音声とテキストのアライメントを改善し、高いノイズ分散を示す音声トークンを生成する。
論文 参考訳(メタデータ) (2025-10-29T04:08:19Z) - From Silent Signals to Natural Language: A Dual-Stage Transformer-LLM Approach [0.0]
本稿では,変圧器をベースとした音響モデルと,後処理のための大規模言語モデル(LLM)を組み合わせた音声認識フレームワークを提案する。
実験の結果,単語誤り率 (WER) は36%の基準で16%, 単語誤り率 (WER) は6%低下した。
論文 参考訳(メタデータ) (2025-09-02T16:13:29Z) - TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition [29.756961194844717]
提案したTRNetは,一致した雑音環境と一致しない雑音環境の両方において,提案方式の堅牢性を大幅に向上させる。
その結果,提案方式は,一致した環境と一致しない環境の両方において,提案方式のロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-19T16:09:17Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Adversarial Feature Learning and Unsupervised Clustering based Speech
Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。
このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。
本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。