論文の概要: Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking
- arxiv url: http://arxiv.org/abs/2409.18428v1
- Date: Fri, 27 Sep 2024 03:31:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 06:21:38.168705
- Title: Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking
- Title(参考訳): 単純N-bestリグレードを用いた野生における多言語ASRの改良
- Authors: Brian Yan, Vineel Pratap, Shinji Watanabe, Michael Auli,
- Abstract要約: 我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
- 参考スコア(独自算出の注目度): 68.77659513993507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual Automatic Speech Recognition (ASR) models are typically evaluated in a setting where the ground-truth language of the speech utterance is known, however, this is often not the case for most practical settings. Automatic Spoken Language Identification (SLID) models are not perfect and misclassifications have a substantial impact on the final ASR accuracy. In this paper, we present a simple and effective N-best re-ranking approach to improve multilingual ASR accuracy for several prominent acoustic models by employing external features such as language models and text-based language identification models. Our results on FLEURS using the MMS and Whisper models show spoken language identification accuracy improvements of 8.7% and 6.1%, respectively and word error rates which are 3.3% and 2.0% lower on these benchmarks.
- Abstract(参考訳): 多言語自動音声認識(ASR)モデルは通常、発声の基調言語が知られている環境で評価されるが、最も実用的な設定ではそうではないことが多い。
自動音声言語識別(SLID)モデルは完全ではなく、誤分類は最終的なASR精度に大きな影響を及ぼす。
本稿では,言語モデルやテキストベース言語識別モデルなどの外的特徴を用いて,複数の顕著な音響モデルの多言語ASR精度を向上させるための,単純かつ効果的なN-best再分類手法を提案する。
MMSモデルとWhisperモデルを用いたFLEURSの結果,それぞれ8.7%,6.1%の言語識別精度が向上し,これらのベンチマークでは単語誤り率が3.3%,2.0%低下した。
関連論文リスト
- Evaluating Standard and Dialectal Frisian ASR: Multilingual Fine-tuning and Language Identification for Improved Low-resource Performance [9.624005980086707]
最先端の手法では、大量のデータに事前訓練されたモデルをラベル付きデータを使って微調整する自己教師ありトランスファーラーニングをデプロイする。
我々は,多言語微調整データと補助言語識別タスクを用いて,Frisian ASRの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:42:46Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Efficient Adaptation of Multilingual Models for Japanese ASR [0.0]
本研究では,多言語ASR(Automatic Speech Recognition)モデル,特にOpenAIのWhisper-Tinyを用いて,日本語のパフォーマンス向上について検討する。
日本語固有のデータセットとローランド適応(LoRA)とエンドツーエンド(E2E)トレーニングを使用して、Whisper-Tinyを微調整して、このギャップを埋めた。
その結果,Whisper-Tiny のキャラクタエラーレート (CER) は LoRA では 32.7 から 20.8 に減少し,エンドツーエンドのファインチューニングでは 14.7 に低下し,Whisper-Base の CER は 20。
論文 参考訳(メタデータ) (2024-12-14T06:32:16Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Parameter-efficient Adaptation of Multilingual Multimodal Models for Low-resource ASR [25.566285376879094]
マルチモーダルモデルは、テキストのみの適応とパラメータ効率のよいASR微調整によって、ラベルなしのテキストを活用することができる。
ゼロショット設定でベースラインよりも17%のWER削減を実現し,ハイリソース言語からの言語間移動を示す。
論文 参考訳(メタデータ) (2024-10-17T11:19:44Z) - Weighted Cross-entropy for Low-Resource Languages in Multilingual Speech Recognition [2.7247388777405597]
重み付きクロスエントロピーの新たな応用法を提案する。
我々は5つの高ソース言語と1つの低リソース言語でWhisper多言語ASRモデルを微調整する。
論文 参考訳(メタデータ) (2024-09-25T14:09:09Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。