Fugu-MT 論文翻訳(概要): Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking

論文の概要: Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking

arxiv url: http://arxiv.org/abs/2409.18428v1
Date: Fri, 27 Sep 2024 03:31:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 06:21:38.168705
Title: Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking
Title（参考訳）: 単純N-bestリグレードを用いた野生における多言語ASRの改良
Authors: Brian Yan, Vineel Pratap, Shinji Watanabe, Michael Auli,
Abstract要約: 我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
参考スコア（独自算出の注目度）: 68.77659513993507
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multilingual Automatic Speech Recognition (ASR) models are typically evaluated in a setting where the ground-truth language of the speech utterance is known, however, this is often not the case for most practical settings. Automatic Spoken Language Identification (SLID) models are not perfect and misclassifications have a substantial impact on the final ASR accuracy. In this paper, we present a simple and effective N-best re-ranking approach to improve multilingual ASR accuracy for several prominent acoustic models by employing external features such as language models and text-based language identification models. Our results on FLEURS using the MMS and Whisper models show spoken language identification accuracy improvements of 8.7% and 6.1%, respectively and word error rates which are 3.3% and 2.0% lower on these benchmarks.
Abstract（参考訳）: 多言語自動音声認識(ASR)モデルは通常、発声の基調言語が知られている環境で評価されるが、最も実用的な設定ではそうではないことが多い。自動音声言語識別(SLID)モデルは完全ではなく、誤分類は最終的なASR精度に大きな影響を及ぼす。本稿では,言語モデルやテキストベース言語識別モデルなどの外的特徴を用いて,複数の顕著な音響モデルの多言語ASR精度を向上させるための,単純かつ効果的なN-best再分類手法を提案する。 MMSモデルとWhisperモデルを用いたFLEURSの結果,それぞれ8.7%,6.1%の言語識別精度が向上し,これらのベンチマークでは単語誤り率が3.3%,2.0%低下した。

関連論文リスト

Relic: Enhancing Reward Model Generalization for Low-Resource Indic Languages with Few-Shot Examples [58.55904048776596]
ほとんどのオープンソースの多言語報酬モデルは、主にオープンソース言語の好みデータセットに基づいて訓練されている。低リソースIndic言語における報酬モデリングのための新しい文脈内学習フレームワークであるRELICを提案する。
論文参考訳（メタデータ） (2025-06-19T17:56:16Z)
Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。 LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文参考訳（メタデータ） (2025-06-11T07:06:27Z)
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文参考訳（メタデータ） (2025-03-30T18:03:52Z)
Evaluating Standard and Dialectal Frisian ASR: Multilingual Fine-tuning and Language Identification for Improved Low-resource Performance [9.624005980086707]
最先端の手法では、大量のデータに事前訓練されたモデルをラベル付きデータを使って微調整する自己教師ありトランスファーラーニングをデプロイする。我々は,多言語微調整データと補助言語識別タスクを用いて,Frisian ASRの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2025-02-07T12:42:46Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Efficient Adaptation of Multilingual Models for Japanese ASR [0.0]
本研究では,多言語ASR(Automatic Speech Recognition)モデル,特にOpenAIのWhisper-Tinyを用いて,日本語のパフォーマンス向上について検討する。日本語固有のデータセットとローランド適応(LoRA)とエンドツーエンド(E2E)トレーニングを使用して、Whisper-Tinyを微調整して、このギャップを埋めた。その結果,Whisper-Tiny のキャラクタエラーレート (CER) は LoRA では 32.7 から 20.8 に減少し,エンドツーエンドのファインチューニングでは 14.7 に低下し,Whisper-Base の CER は 20。
論文参考訳（メタデータ） (2024-12-14T06:32:16Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
Parameter-efficient Adaptation of Multilingual Multimodal Models for Low-resource ASR [25.566285376879094]
マルチモーダルモデルは、テキストのみの適応とパラメータ効率のよいASR微調整によって、ラベルなしのテキストを活用することができる。ゼロショット設定でベースラインよりも17%のWER削減を実現し,ハイリソース言語からの言語間移動を示す。
論文参考訳（メタデータ） (2024-10-17T11:19:44Z)
Weighted Cross-entropy for Low-Resource Languages in Multilingual Speech Recognition [2.7247388777405597]
重み付きクロスエントロピーの新たな応用法を提案する。我々は5つの高ソース言語と1つの低リソース言語でWhisper多言語ASRモデルを微調整する。
論文参考訳（メタデータ） (2024-09-25T14:09:09Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
Is Attention always needed? A Case Study on Language Identification from Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。 CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。 LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文参考訳（メタデータ） (2021-10-05T16:38:57Z)
Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文参考訳（メタデータ） (2021-06-16T18:13:55Z)
Multi-task Language Modeling for Improving Speech Recognition of Rare Words [14.745696312889763]
音声認識性能を向上させるために,意図やスロット予測などのセマンティックターゲットを利用するマルチタスク学習を用いた第2パスシステムを提案する。マルチタスク LM を用いた ASR システムは,レアワード認識のための RNN Transducer のみの ASR ベースラインと比較して,4.6% の WERR 推論を示す。
論文参考訳（メタデータ） (2020-11-23T20:40:44Z)
Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。 3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文参考訳（メタデータ） (2020-04-28T05:13:17Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。