論文の概要: Multilingual Word Error Rate Estimation: e-WER3
- arxiv url: http://arxiv.org/abs/2304.00649v1
- Date: Sun, 2 Apr 2023 23:08:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 17:03:45.326591
- Title: Multilingual Word Error Rate Estimation: e-WER3
- Title(参考訳): 多言語単語誤り率推定:e-wer3
- Authors: Shammur Absar Chowdhury and Ahmed Ali
- Abstract要約: 本稿では,単語誤り率を推定するために,音響および語彙表現を共同で訓練した新しいフレームワークeWER3を提案する。
提案した多言語モデルは,Pearson相関係数(PCC)の絶対9%増加により,従来の単言語単語誤り率推定法(eWER2)より優れていることを示す。
- 参考スコア(独自算出の注目度): 11.746833714322154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of the multilingual automatic speech recognition systems
empowered many voice-driven applications. However, measuring the performance of
such systems remains a major challenge, due to its dependency on manually
transcribed speech data in both mono- and multilingual scenarios. In this
paper, we propose a novel multilingual framework -- eWER3 -- jointly trained on
acoustic and lexical representation to estimate word error rate. We demonstrate
the effectiveness of eWER3 to (i) predict WER without using any internal states
from the ASR and (ii) use the multilingual shared latent space to push the
performance of the close-related languages. We show our proposed multilingual
model outperforms the previous monolingual word error rate estimation method
(eWER2) by an absolute 9\% increase in Pearson correlation coefficient (PCC),
with better overall estimation between the predicted and reference WER.
- Abstract(参考訳): 多言語自動音声認識システムの成功は多くの音声駆動応用に力を与えた。
しかし、単言語・多言語両方のシナリオにおいて手書き音声データに依存するため、このようなシステムの性能測定は依然として大きな課題である。
本稿では,単語誤り率を推定するために,音響および語彙表現を共同で訓練した新しい多言語フレームワークeWER3を提案する。
eWER3の有効性を実証する。
(i)ASRの内部状態を使わずにWERを予測し、
(ii)近接関係言語の性能を高めるために多言語共用潜在空間を用いる。
提案する多言語モデルでは,従来の単言語単語誤り率推定法 (ewer2) よりもピアソン相関係数 (pcc) の絶対 9 % 向上により,予測値と参照値の総合的な推定精度が向上した。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Efficient Compression of Multitask Multilingual Speech Models [0.0]
DistilWhisperは、マルチタスクとマルチ言語機能の利点を維持しながら、これらの言語におけるASRのパフォーマンスギャップを埋めることができる。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
論文 参考訳(メタデータ) (2024-05-02T03:11:59Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - A Study of Multilingual End-to-End Speech Recognition for Kazakh,
Russian, and English [5.094176584161206]
我々は、カザフスタンで使われている3つの言語(カザフ語、ロシア語、英語)に対して、1つのエンドツーエンド(E2E)自動音声認識(ASR)モデルを訓練する。
本稿ではまず,Transformer ネットワークに基づく多言語 E2E ASR の開発について述べる。
論文 参考訳(メタデータ) (2021-08-03T04:04:01Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。