論文の概要: Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition
and Phoneme to Grapheme Translation
- arxiv url: http://arxiv.org/abs/2312.03312v1
- Date: Wed, 6 Dec 2023 06:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 15:53:23.323791
- Title: Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition
and Phoneme to Grapheme Translation
- Title(参考訳): 双方向言語間変換学習の最適化:音素認識と音素翻訳
- Authors: Wonjun Lee, Gary Geunbae Lee, Yunsu Kim
- Abstract要約: 本研究は低リソース言語における2パスの言語間変換学習を最適化する。
共有調音特性に基づいて音素を融合させることにより,音素語彙のカバレッジを最適化する。
音素と音素の訓練中に, 現実的なASR雑音に対するグローバルな音素ノイズ発生装置を導入し, 誤りの伝搬を低減する。
- 参考スコア(独自算出の注目度): 9.118302330129284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research optimizes two-pass cross-lingual transfer learning in
low-resource languages by enhancing phoneme recognition and phoneme-to-grapheme
translation models. Our approach optimizes these two stages to improve speech
recognition across languages. We optimize phoneme vocabulary coverage by
merging phonemes based on shared articulatory characteristics, thus improving
recognition accuracy. Additionally, we introduce a global phoneme noise
generator for realistic ASR noise during phoneme-to-grapheme training to reduce
error propagation. Experiments on the CommonVoice 12.0 dataset show significant
reductions in Word Error Rate (WER) for low-resource languages, highlighting
the effectiveness of our approach. This research contributes to the
advancements of two-pass ASR systems in low-resource languages, offering the
potential for improved cross-lingual transfer learning.
- Abstract(参考訳): 本研究は,音素認識と音素から音素への翻訳モデルを強化することにより,低リソース言語における2パスクロスリンガルトランスファー学習を最適化する。
この2つの段階を最適化し,言語間の音声認識を改善する。
共有調音特性に基づいて音素を融合させることにより,音素語彙のカバレッジを最適化し,認識精度を向上させる。
さらに,音素からグラニュムへのトレーニング中にリアルなasrノイズを生成するグローバル音素ノイズ生成器を導入し,誤り伝搬を低減する。
CommonVoice 12.0データセットの実験では、低リソース言語に対するWord Error Rate(WER)が大幅に削減され、我々のアプローチの有効性が強調された。
この研究は、低リソース言語における2パスasrシステムの進歩に寄与し、言語間転送学習の改善の可能性を提供する。
関連論文リスト
- Incorporating L2 Phonemes Using Articulatory Features for Robust Speech
Recognition [2.8360662552057323]
本研究は,韓国語音素を指すL2音素の効率的な組み込みについて,音声特徴分析を用いて検討した。
格子のない最大相互情報(LF-MMI)の目的をエンドツーエンドに使い、音響モデルを訓練し、複数の発音候補のうちの1つを調整・予測する。
実験結果から,提案手法は韓国語L2音声のASR精度をL1音声データのみに基づく訓練により向上させることが示された。
論文 参考訳(メタデータ) (2023-06-05T01:55:33Z) - The Effects of Input Type and Pronunciation Dictionary Usage in Transfer
Learning for Low-Resource Text-to-Speech [1.1852406625172218]
低音源言語(LRL)の音声合成における音声ラベルと音声特徴を言語間変換学習の入力として比較する。
FastSpeech 2 と LRL West Frisian を用いた実験では,音声の明瞭さと自然さの両面で,音声による特徴が優れていた。
論文 参考訳(メタデータ) (2023-06-01T10:42:56Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Adaptive multilingual speech recognition with pretrained models [24.01587237432548]
本稿では,2つのモードに対して事前学習した2つのモデルの有効性について検討する。
全体としては、純粋に教師付き学習よりも44%の改善が見られた。
論文 参考訳(メタデータ) (2022-05-24T18:29:07Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Semi-supervised transfer learning for language expansion of end-to-end
speech recognition models to low-resource languages [19.44975351652865]
低音源言語における音声認識精度向上のための3段階学習手法を提案する。
我々は、翻訳学習、TS拡張、SSLを用いて、よく訓練された英語モデル、ラベルなしテキストコーパス、ラベルなしオーディオコーパスを利用する。
第1パスにおけるモノトニック・チャンクワイド・アテンション(MoA)を用いた2パス音声認識システムでは,ベースラインに対するWERの42%削減を実現している。
論文 参考訳(メタデータ) (2021-11-19T05:09:16Z) - Spoken Term Detection Methods for Sparse Transcription in Very
Low-resource Settings [20.410074074340447]
2つの口頭言語での実験では、ターゲット言語音声のほんの数分で微調整された、事前訓練された普遍的な電話認識器が、音声語検出に使用できることが示されている。
グラフ構造における音素認識の曖昧さの表現は、低リソース音声語検出タスクにおいて高い精度を維持しながら、リコールをさらに促進できることを示す。
論文 参考訳(メタデータ) (2021-06-11T04:09:54Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。