論文の概要: Multi-Level Embedding Conformer Framework for Bengali Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2601.09710v1
- Date: Tue, 23 Dec 2025 04:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.682769
- Title: Multi-Level Embedding Conformer Framework for Bengali Automatic Speech Recognition
- Title(参考訳): ベンガル音声認識のためのマルチレベル埋め込みコンバータフレームワーク
- Authors: Md. Nazmus Sakib, Golam Mahmud, Md. Maruf Bangabashi, Umme Ara Mahinur Istia, Md. Jahidul Islam, Partha Sarker, Afra Yeamini Prity,
- Abstract要約: 本研究では,Bengali ASRのエンドツーエンドフレームワークを提案する。
マルチレベル埋め込み融合機構を備えたConformer-CTCバックボーン上に構築されている。
このモデルは、きめ細かい音素の手がかりと高レベルの文脈パターンをキャプチャする。
- 参考スコア(独自算出の注目度): 2.235406148098187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bengali, spoken by over 300 million people, is a morphologically rich and lowresource language, posing challenges for automatic speech recognition (ASR). This research presents an end-to-end framework for Bengali ASR, building on a Conformer-CTC backbone with a multi-level embedding fusion mechanism that incorporates phoneme, syllable, and wordpiece representations. By enriching acoustic features with these linguistic embeddings, the model captures fine-grained phonetic cues and higher-level contextual patterns. The architecture employs early and late Conformer stages, with preprocessing steps including silence trimming, resampling, Log-Mel spectrogram extraction, and SpecAugment augmentation. The experimental results demonstrate the strong potential of the model, achieving a word error rate (WER) of 10.01% and a character error rate (CER) of 5.03%. These results demonstrate the effectiveness of combining multi-granular linguistic information with acoustic modeling, providing a scalable approach for low-resource ASR development.
- Abstract(参考訳): ベンガル語は3億人以上の人々が話しており、形態的にリッチで低リソースな言語であり、自動音声認識(ASR)の課題を提起している。
本研究では, 音素, 音節, ワードピース表現を組み込んだ多層埋め込み融合機構を備えたコンフォーマーCTCバックボーン上に構築したベンガルASRのエンドツーエンドフレームワークを提案する。
これらの言語埋め込みによって音響的特徴を豊かにすることにより、このモデルはきめ細かい音素の手がかりと高レベルな文脈パターンをキャプチャする。
アーキテクチャは、サイレントトリミング、再サンプリング、Log-Melスペクトル抽出、SpecAugment拡張などの前処理ステップを備えた、初期および後期のConformerステージを採用している。
その結果,単語誤り率(WER)が10.01%,文字誤り率(CER)が5.03%に達した。
これらの結果は,マルチグラニュラ言語情報と音響モデルを組み合わせることの有効性を示し,低リソースASR開発にスケーラブルなアプローチを提供する。
関連論文リスト
- WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - Improving Code-Switching Speech Recognition with TTS Data Augmentation [58.34842693152991]
本稿では,この不足に対処する効果的なデータ拡張手法として,多言語テキスト音声(TTS)モデルについて検討する。
我々は、SEAMEデータセット上の多言語CosyVoice2 TTSモデルを微調整し、中国語と英語の合成音声を生成する。
論文 参考訳(メタデータ) (2026-01-02T10:11:51Z) - PAC: Pronunciation-Aware Contextualized Large Language Model-based Automatic Speech Recognition [20.121140251177145]
本稿では,Large Language Model(LLM)に基づく自動音声認識(ASR)システムにおける2つの課題について述べる。
The public English Librispeech and Mandarin AISHELL-1 datas showed that PAC: (1) reduces relative Word Error Rate (WER) by 30.2% and 53.8% compared to pre-trained ASR model, (2) achieves 31.8% and 60.5% relative reductions of biased WER for long-tail words。
論文 参考訳(メタデータ) (2025-09-16T04:07:28Z) - CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition [26.693942793501204]
エンドツーエンド自動音声キーワード認識(SKR)のための新しい言語・ユニバーサルアプローチを提案する。
Wav2Vec2.0はロバストな音声表現を生成するために使われ、続いて線形出力層が属性列を生成する。
訓練不能な発音モデルでは、属性のシーケンスを多言語設定で音声キーワードにマッピングする。
論文 参考訳(メタデータ) (2024-06-04T16:59:11Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Streaming Language Identification using Combination of Acoustic
Representations and ASR Hypotheses [13.976935216584298]
多言語音声認識の一般的なアプローチは、複数の単言語ASRシステムを並列に実行することである。
本研究では,音響レベルの表現とASR仮説に基づく埋め込みを学習し,組み合わせる手法を提案する。
処理コストとレイテンシを低減するため,我々はストリーミングアーキテクチャを利用して音声言語を早期に識別する。
論文 参考訳(メタデータ) (2020-06-01T04:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。