論文の概要: Improved Language Identification Through Cross-Lingual Self-Supervised
Learning
- arxiv url: http://arxiv.org/abs/2107.04082v1
- Date: Thu, 8 Jul 2021 19:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:41:34.334923
- Title: Improved Language Identification Through Cross-Lingual Self-Supervised
Learning
- Title(参考訳): 言語横断型自己監督学習による言語識別の改善
- Authors: Andros Tjandra, Diptanu Gon Choudhury, Frank Zhang, Kritika Singh,
Alexei Baevski, Assaf Sela, Yatharth Saraf, Michael Auli
- Abstract要約: 我々は、事前訓練されたモデルを用いて、言語識別に関する以前の自己教師型研究を拡張した。
25言語のセットアップ結果から、言語毎にラベル付きデータの10分で、言語横断的に事前訓練されたモデルが93%以上の精度を達成できることが示された。
- 参考スコア(独自算出の注目度): 37.32193095549614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language identification greatly impacts the success of downstream tasks such
as automatic speech recognition. Recently, self-supervised speech
representations learned by wav2vec 2.0 have been shown to be very effective for
a range of speech tasks. We extend previous self-supervised work on language
identification by experimenting with pre-trained models which were learned on
real-world unconstrained speech in multiple languages and not just on English.
We show that models pre-trained on many languages perform better and enable
language identification systems that require very little labeled data to
perform well. Results on a 25 languages setup show that with only 10 minutes of
labeled data per language, a cross-lingually pre-trained model can achieve over
93% accuracy.
- Abstract(参考訳): 言語識別は、自動音声認識などの下流タスクの成功に大きく影響する。
近年,wav2vec 2.0で学習した自己教師型音声表現は,様々な音声タスクに非常に有効であることが示されている。
英語だけでなく、複数の言語で実世界の未学習音声から学習した事前学習モデルを用いて、言語識別に関する過去の自己教師あり作業を拡張する。
多くの言語で事前訓練されたモデルの性能が向上し,ラベル付きデータが少ない言語識別システムが良好に動作することを示す。
25言語のセットアップ結果から、言語毎にラベル付きデータの10分で、言語横断的に事前訓練されたモデルが93%以上の精度を達成できることが示された。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Simple and Effective Zero-shot Cross-lingual Phoneme Recognition [46.76787843369816]
本稿では,複数言語で事前訓練されたwav2vec 2.0モデルを微調整し,未知の言語を転写することで,ゼロショット・クロスリンガル変換学習に関するこれまでの研究を拡張した。
実験によると、この単純な手法はタスク固有のアーキテクチャを導入した以前の作業よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-09-23T22:50:32Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。