論文の概要: STRATA: Word Boundaries & Phoneme Recognition From Continuous Urdu
Speech using Transfer Learning, Attention, & Data Augmentation
- arxiv url: http://arxiv.org/abs/2204.07848v1
- Date: Sat, 16 Apr 2022 17:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 15:49:55.000895
- Title: STRATA: Word Boundaries & Phoneme Recognition From Continuous Urdu
Speech using Transfer Learning, Attention, & Data Augmentation
- Title(参考訳): STRATA:トランスファーラーニング・アテンション・データ強化を用いた連続ウルドゥー音声からの単語境界と音素認識
- Authors: Saad Naeem and Omer Beg
- Abstract要約: STRATAは、転送学習、アテンション機構、データ拡張と統合されたSeq2seqニューラルネットワークを使用して、教師付き音素認識のためのフレームワークである。
STRATAは16.5%の音素誤り率を達成でき、TIMITデータセット(英語)では1.1%、CSaLTデータセット(Urdu)では11.5%向上している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phoneme recognition is a largely unsolved problem in NLP, especially for
low-resource languages like Urdu. The systems that try to extract the phonemes
from audio speech require hand-labeled phonetic transcriptions. This requires
expert linguists to annotate speech data with its relevant phonetic
representation which is both an expensive and a tedious task. In this paper, we
propose STRATA, a framework for supervised phoneme recognition that overcomes
the data scarcity issue for low resource languages using a seq2seq neural
architecture integrated with transfer learning, attention mechanism, and data
augmentation. STRATA employs transfer learning to reduce the network loss in
half. It uses attention mechanism for word boundaries and frame alignment
detection which further reduces the network loss by 4% and is able to identify
the word boundaries with 92.2% accuracy. STRATA uses various data augmentation
techniques to further reduce the loss by 1.5% and is more robust towards new
signals both in terms of generalization and accuracy. STRATA is able to achieve
a Phoneme Error Rate of 16.5% and improves upon the state of the art by 1.1%
for TIMIT dataset (English) and 11.5% for CSaLT dataset (Urdu).
- Abstract(参考訳): 音素認識は、特にウルドゥー語のような低リソース言語において、NLPにおいてほとんど未解決の問題である。
音声から音素を抽出しようとするシステムは、手書きの音声転写を必要とする。
これは、専門家の言語学者が、高価な作業と退屈な作業の両方で、関連する音声表現で音声データに注釈を付ける必要がある。
本稿では,トランスファー学習や注意機構,データ拡張機構と統合したseq2seqニューラルネットワークを用いて,低リソース言語におけるデータ不足問題を克服する,教師付き音素認識のためのフレームワークであるstrataを提案する。
STRATAは転送学習を使ってネットワーク損失を半分に減らしている。
単語境界とフレームアライメント検出に注意機構を使用し、ネットワーク損失をさらに4%削減し、92.2%の精度で単語境界を識別することができる。
STRATAは様々なデータ拡張技術を使用して損失を1.5%削減し、一般化と精度の両面で新しい信号に対してより堅牢である。
STRATAは16.5%の音素誤り率を達成でき、TIMITデータセット(英語)では1.1%、CSaLTデータセット(Urdu)では11.5%向上している。
関連論文リスト
- Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition
and Phoneme to Grapheme Translation [9.118302330129284]
本研究は低リソース言語における2パスの言語間変換学習を最適化する。
共有調音特性に基づいて音素を融合させることにより,音素語彙のカバレッジを最適化する。
音素と音素の訓練中に, 現実的なASR雑音に対するグローバルな音素ノイズ発生装置を導入し, 誤りの伝搬を低減する。
論文 参考訳(メタデータ) (2023-12-06T06:37:24Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Semi-supervised transfer learning for language expansion of end-to-end
speech recognition models to low-resource languages [19.44975351652865]
低音源言語における音声認識精度向上のための3段階学習手法を提案する。
我々は、翻訳学習、TS拡張、SSLを用いて、よく訓練された英語モデル、ラベルなしテキストコーパス、ラベルなしオーディオコーパスを利用する。
第1パスにおけるモノトニック・チャンクワイド・アテンション(MoA)を用いた2パス音声認識システムでは,ベースラインに対するWERの42%削減を実現している。
論文 参考訳(メタデータ) (2021-11-19T05:09:16Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Intent Recognition and Unsupervised Slot Identification for Low
Resourced Spoken Dialog Systems [46.705058576039065]
ユニバーサル電話認識システムを用いて音声を音声転写に変換する音響ベースのSLUシステムを提案する。
これらの音声転写から意図認識とスロット識別を行う単語のない自然言語理解モジュールを構築します。
タミルではインテント分類が10%以上改善され,シンハラではインテント分類が5%以上向上した。
論文 参考訳(メタデータ) (2021-04-03T01:58:27Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。