論文の概要: Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching
- arxiv url: http://arxiv.org/abs/2311.15077v1
- Date: Sat, 25 Nov 2023 17:05:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 22:08:15.163965
- Title: Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching
- Title(参考訳): コードスイッチングによる低リソースアフリカ言語音声認識の多言語自己教師型音声表現による改善
- Authors: Tol\'ulop\'e \`Og\'unr\`em\'i, Christopher D. Manning, Dan Jurafsky
- Abstract要約: 微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
- 参考スコア(独自算出の注目度): 65.74653592668743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While many speakers of low-resource languages regularly code-switch between
their languages and other regional languages or English, datasets of
codeswitched speech are too small to train bespoke acoustic models from scratch
or do language model rescoring. Here we propose finetuning self-supervised
speech representations such as wav2vec 2.0 XLSR to recognize code-switched
data. We find that finetuning self-supervised multilingual representations and
augmenting them with n-gram language models trained from transcripts reduces
absolute word error rates by up to 20% compared to baselines of hybrid models
trained from scratch on code-switched data. Our findings suggest that in
circumstances with limited training data finetuning self-supervised
representations is a better performing and viable solution.
- Abstract(参考訳): 低リソース言語の多くの話者は、言語と他の地域言語や英語を定期的にコードスイッチするが、コードスイッチされた音声のデータセットは、スクラッチから音素モデルを訓練するには小さすぎる。
本稿では、コード切替データを認識するために、wav2vec 2.0 XLSRのような自己教師付き音声表現を微調整する。
テキストから訓練したn-gram言語モデルを用いて、自己教師付き多言語表現を微調整し、それらを拡張することで、コード切替データでスクラッチから訓練したハイブリッドモデルのベースラインと比較して、絶対単語誤り率を最大20%削減できることがわかった。
学習データに制限のある状況において,自己監督表現を微調整することは,実行可能かつ有効なソリューションであることが示唆された。
関連論文リスト
- Adapting the adapters for code-switching in multilingual ASR [10.316724084739892]
訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。
これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。
この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
論文 参考訳(メタデータ) (2023-10-11T12:15:24Z) - Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages [49.6922490267701]
我々は,自己教師型音声エンコーダのコード切替能力を評価するために,ゼロリソースコード切替音声ベンチマークを導入した。
本稿では,音声エンコーダのコードスイッチング能力を評価するために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:58:11Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z) - Improved acoustic word embeddings for zero-resource languages using
multilingual transfer [37.78342106714364]
我々は、ラベル付きデータに対する複数の良質な言語からの単一の教師付き埋め込みモデルを訓練し、それを目に見えないゼロ・リソース言語に適用する。
本稿では,3つのマルチリンガルリカレントニューラルネットワーク(RNN)モデルについて考察する。全ての訓練言語の連接語彙に基づいて訓練された分類器,複数言語から同一語と異なる単語を識別する訓練されたシームズRNN,単語ペアを再構成する訓練された対応オートエンコーダ(CAE)RNNである。
これらのモデルは、ゼロリソース言語自体で訓練された最先端の教師なしモデルよりも優れており、平均精度が30%以上向上している。
論文 参考訳(メタデータ) (2020-06-02T12:28:34Z) - Learning to Recognize Code-switched Speech Without Forgetting
Monolingual Speech Recognition [14.559210845981605]
コード切替音声における微調整ASRモデルが単言語音声の性能を損なうことを示す。
単言語精度を犠牲にすることなく、コードスイッチングのための微調整モデルの正規化戦略を提案する。
論文 参考訳(メタデータ) (2020-06-01T08:16:24Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z) - Multilingual acoustic word embedding models for processing zero-resource
languages [37.78342106714364]
我々は,複数言語からのラベル付きデータに対して,単一の教師付き埋め込みモデルを訓練する。
次に、見知らぬゼロリソース言語に適用します。
論文 参考訳(メタデータ) (2020-02-06T05:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。