論文の概要: A Study of Multilingual End-to-End Speech Recognition for Kazakh,
Russian, and English
- arxiv url: http://arxiv.org/abs/2108.01280v1
- Date: Tue, 3 Aug 2021 04:04:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 19:20:23.326571
- Title: A Study of Multilingual End-to-End Speech Recognition for Kazakh,
Russian, and English
- Title(参考訳): カザフ語・ロシア語・英語における多言語エンドツーエンド音声認識の検討
- Authors: Saida Mussakhojayeva, Yerbolat Khassanov, Huseyin Atakan Varol
- Abstract要約: 我々は、カザフスタンで使われている3つの言語(カザフ語、ロシア語、英語)に対して、1つのエンドツーエンド(E2E)自動音声認識(ASR)モデルを訓練する。
本稿ではまず,Transformer ネットワークに基づく多言語 E2E ASR の開発について述べる。
- 参考スコア(独自算出の注目度): 5.094176584161206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study training a single end-to-end (E2E) automatic speech recognition
(ASR) model for three languages used in Kazakhstan: Kazakh, Russian, and
English. We first describe the development of multilingual E2E ASR based on
Transformer networks and then perform an extensive assessment on the
aforementioned languages. We also compare two variants of output grapheme set
construction: combined and independent. Furthermore, we evaluate the impact of
LMs and data augmentation techniques on the recognition performance of the
multilingual E2E ASR. In addition, we present several datasets for training and
evaluation purposes. Experiment results show that the multilingual models
achieve comparable performances to the monolingual baselines with a similar
number of parameters. Our best monolingual and multilingual models achieved
20.9% and 20.5% average word error rates on the combined test set,
respectively. To ensure the reproducibility of our experiments and results, we
share our training recipes, datasets, and pre-trained models.
- Abstract(参考訳): 我々は、カザフスタンで使われている3つの言語(カザフ語、ロシア語、英語)に対して、1つのエンドツーエンド(E2E)自動音声認識(ASR)モデルを訓練する。
まず,トランスフォーマーネットワークに基づく多言語e2e asrの開発について述べるとともに,上記の言語について広範な評価を行った。
また,出力グラフ集合の構成の2つの変種を比較した。
さらに,多言語E2E ASRの認識性能に及ぼすLMとデータ拡張技術の影響を評価した。
さらに,トレーニングや評価のためのデータセットをいくつか提示する。
実験結果から,多言語モデルでは,同じ数のパラメータを持つ単言語ベースラインに匹敵する性能が得られた。
最善の単言語モデルと多言語モデルはそれぞれ20.9%と20.5%の単語誤り率を達成した。
実験と結果の再現性を確保するため、トレーニングレシピ、データセット、トレーニング済みモデルを共有します。
関連論文リスト
- Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? [3.902360015414256]
この研究は、多言語設定におけるCLIPScore変種の評価に関連する、いくつかの戦略と広範な実験を提示する。
機械翻訳データを用いたテストでは、多言語CLIPScoreモデルは、異なる言語にわたる人間の判断と高い相関を維持することができる。
論文 参考訳(メタデータ) (2025-02-10T16:00:00Z) - CODEOFCONDUCT at Multilingual Counterspeech Generation: A Context-Aware Model for Robust Counterspeech Generation in Low-Resource Languages [1.9263811967110864]
本稿では,MCG-COING-2025共有タスクにおいて大きな成功を収めた,頑健な対音声生成のための文脈認識モデルを提案する。
多言語データセットに微調整されたシミュレーションアニーリングアルゴリズムを活用することで、モデルはヘイトスピーチに対する現実的に正確な応答を生成する。
4つの言語で最先端のパフォーマンスを実証し、バスク語で第1位、イタリア語で第2位、英語とスペイン語で第3位にランク付けしました。
論文 参考訳(メタデータ) (2025-01-01T03:36:31Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Scaling Laws for Multilingual Language Models [41.6318470003173]
多言語スケーリングの研究における主要な課題は、言語間移動による個々の言語性能の分析が困難であることである。
本稿では,各言語群に対するクロスエントロピー損失が,それぞれのサンプリング比でのみ決定されるという仮説を導入し,検証する。
性能とデータセットサイズ,モデルサイズ,サンプリング比率を関連づける,ゆるい関係を導出する。
論文 参考訳(メタデータ) (2024-10-15T20:29:38Z) - A Comparative Analysis of Bilingual and Trilingual Wav2Vec Models for Automatic Speech Recognition in Multilingual Oral History Archives [2.3592914313389257]
我々は,単言語Wav2Vec 2.0モデルと様々な多言語モデルを比較し,音声認識性能の向上を図る。
以上の結果から,単言語音声認識モデルは多言語モデルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2024-07-24T11:03:47Z) - Cross-Lingual Knowledge Distillation for Answer Sentence Selection in
Low-Resource Languages [90.41827664700847]
低リソース言語のためのAS2モデルの学習方法として、英語の強力なAS2教師からCLKD(Cross-Lingual Knowledge Distillation)を提案する。
提案手法を評価するために,1)Xtr-WikiQA,(9言語用ウィキQAデータセット,2)TyDi-AS2,8言語にまたがる70万以上の質問を持つ多言語AS2データセットを紹介する。
論文 参考訳(メタデータ) (2023-05-25T17:56:04Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters [31.705705891482594]
低音源言語における音声認識(ASR)の性能向上を目的とした,複数言語を対象とした単一音響モデルの訓練について検討した。
入力言語を知らずに1つの関節モデルから多言語学習の3つの変種を、この情報を用いて複数の頭部に比較する。
複数の言語でのASRモデルの多言語学習により、認識性能、特に低リソース言語での認識性能が向上することを示す。
論文 参考訳(メタデータ) (2020-07-06T18:43:38Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。