論文の概要: Open Source State-Of-the-Art Solution for Romanian Speech Recognition
- arxiv url: http://arxiv.org/abs/2511.03361v1
- Date: Wed, 05 Nov 2025 11:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.408697
- Title: Open Source State-Of-the-Art Solution for Romanian Speech Recognition
- Title(参考訳): ルーマニア語音声認識のためのオープンソース State-Of-the-Art ソリューション
- Authors: Gabriel Pirlogeanu, Alexandru-Lucian Georgescu, Horia Cucu,
- Abstract要約: 本稿では,NVIDIAのFastConformerアーキテクチャに基づくルーマニア語自動音声認識(ASR)システムを提案する。
我々は、弱教師付き文字起こしの大きなコーパスでモデルを訓練し、合計2600時間以上の音声を処理した。
本システムは,全ルーマニア評価ベンチマークにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 47.27624927463166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present a new state-of-the-art Romanian Automatic Speech Recognition (ASR) system based on NVIDIA's FastConformer architecture--explored here for the first time in the context of Romanian. We train our model on a large corpus of, mostly, weakly supervised transcriptions, totaling over 2,600 hours of speech. Leveraging a hybrid decoder with both Connectionist Temporal Classification (CTC) and Token-Duration Transducer (TDT) branches, we evaluate a range of decoding strategies including greedy, ALSD, and CTC beam search with a 6-gram token-level language model. Our system achieves state-of-the-art performance across all Romanian evaluation benchmarks, including read, spontaneous, and domain-specific speech, with up to 27% relative WER reduction compared to previous best-performing systems. In addition to improved transcription accuracy, our approach demonstrates practical decoding efficiency, making it suitable for both research and deployment in low-latency ASR applications.
- Abstract(参考訳): 本研究では,NVIDIAのFastConformerアーキテクチャに基づく,最先端のルーマニア自動音声認識(ASR)システムを提案する。
われわれのモデルは、主に弱教師付き文字起こしの大規模なコーパスで訓練され、合計2600時間以上の音声が処理される。
接続型テンポラル分類(CTC)とToken-Duration Transducer(TDT)の両方を併用したハイブリッドデコーダを用いて,greedy,ALSD,CTCビーム検索などのデコード戦略を6グラムのトークンレベル言語モデルで評価した。
本システムでは,読み出し,自然発声,ドメイン固有音声を含むすべてのルーマニア語評価ベンチマークにおいて,従来よりも27%のWER削減を実現している。
転写精度の向上に加えて,本手法は実用的な復号化効率を示し,低遅延ASRアプリケーションにおける研究と展開の両方に適している。
関連論文リスト
- Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
我々のモデルは、英語で約2.5%の競争力のある単語誤り率(WER)を達成し、スペイン語で既存のアプローチを上回ります。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces
and Conformers [33.725831884078744]
提案したCTC-CRFフレームワークは、ハイブリッドアプローチのデータ効率とエンドツーエンドアプローチの単純さを継承する。
本稿では,最近開発されたワードピースモデリングユニットとコンフォーマーニューラルネットワークをCTC-CRFに適用する手法について検討する。
論文 参考訳(メタデータ) (2021-07-07T04:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。