論文の概要: Data Augmentation for Speech Recognition in Maltese: A Low-Resource
Perspective
- arxiv url: http://arxiv.org/abs/2111.07793v1
- Date: Mon, 15 Nov 2021 14:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 22:56:00.665998
- Title: Data Augmentation for Speech Recognition in Maltese: A Low-Resource
Perspective
- Title(参考訳): マルタにおける音声認識のためのデータ拡張:低リソース視点
- Authors: Carlos Mena and Andrea DeMarco and Claudia Borg and Lonneke van der
Plas and Albert Gatt
- Abstract要約: マルタ語における音声認識改善のためのデータ拡張手法を検討する。
本稿では,教師なし学習,多言語学習,合成音声を訓練データとして利用する3つのデータ拡張について考察する。
この結果から,3つのデータ拡張手法を組み合わせることで,言語モデルを用いることなく,WERの絶対値が15%向上することが示唆された。
- 参考スコア(独自算出の注目度): 4.6898263272139795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing speech technologies is a challenge for low-resource languages for
which both annotated and raw speech data is sparse. Maltese is one such
language. Recent years have seen an increased interest in the computational
processing of Maltese, including speech technologies, but resources for the
latter remain sparse. In this paper, we consider data augmentation techniques
for improving speech recognition for such languages, focusing on Maltese as a
test case. We consider three different types of data augmentation: unsupervised
training, multilingual training and the use of synthesized speech as training
data. The goal is to determine which of these techniques, or combination of
them, is the most effective to improve speech recognition for languages where
the starting point is a small corpus of approximately 7 hours of transcribed
speech. Our results show that combining the three data augmentation techniques
studied here lead us to an absolute WER improvement of 15% without the use of a
language model.
- Abstract(参考訳): 音声技術の開発は、アノテートと生の音声データの両方が不足している低リソース言語にとって課題である。
マルタ語はそのような言語である。
近年、音声技術を含むマルタの計算処理への関心が高まっているが、後者の資源は依然として希薄である。
本稿では,これらの言語における音声認識向上のためのデータ拡張手法について考察する。
教師なし学習,多言語訓練,合成音声の訓練データとしての利用の3種類のデータ拡張について検討した。
目的は、どの手法、またはそれらの組み合わせが、出発点が約7時間の書き起こし音声の小さなコーパスである言語における音声認識を改善するのに最も効果的かを決定することである。
その結果,ここで研究した3つのデータ拡張手法を組み合わせると,言語モデルを用いずに15%の絶対的改善が得られた。
関連論文リスト
- A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition [1.8377902806196766]
最高のパフォーマンスの音声モデルは、彼らが目的とする言語で大量のデータに基づいて訓練される。
ほとんどの言語はスパースデータを持ち、トレーニングモデルを困難にしている。
本研究は、限られたデータ、特に音声感情認識のためのモデルの性能について考察する。
論文 参考訳(メタデータ) (2024-10-06T21:33:51Z) - CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。