論文の概要: Improving Rare Words Recognition through Homophone Extension and Unified
Writing for Low-resource Cantonese Speech Recognition
- arxiv url: http://arxiv.org/abs/2302.00836v1
- Date: Thu, 2 Feb 2023 02:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 15:42:05.728564
- Title: Improving Rare Words Recognition through Homophone Extension and Unified
Writing for Low-resource Cantonese Speech Recognition
- Title(参考訳): 低音源カントン音声認識のための音声拡張と統一書き込みによる希少単語認識の改善
- Authors: HoLam Chung, Junan Li, Pengfei Liu1, Wai-Kim Leung, Xixin Wu, Helen
Meng
- Abstract要約: ホモフォン文字は、マンダリンやカントン語のような音節ベースの言語で一般的である。
本稿では,ビーム探索復号化プロセスにホモフォン語彙の人間の知識を統合するための新しいホモホン拡張手法を提案する。
また、カントン文字の変種をマージする統一的な自動記述法を提案する。
- 参考スコア(独自算出の注目度): 36.10245119706219
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Homophone characters are common in tonal syllable-based languages, such as
Mandarin and Cantonese. The data-intensive end-to-end Automatic Speech
Recognition (ASR) systems are more likely to mis-recognize homophone characters
and rare words under low-resource settings. For the problem of lowresource
Cantonese speech recognition, this paper presents a novel homophone extension
method to integrate human knowledge of the homophone lexicon into the beam
search decoding process with language model re-scoring. Besides, we propose an
automatic unified writing method to merge the variants of Cantonese characters
and standardize speech annotation guidelines, which enables more efficient
utilization of labeled utterances by providing more samples for the merged
characters. We empirically show that both homophone extension and unified
writing improve the recognition performance significantly on both in-domain and
out-of-domain test sets, with an absolute Character Error Rate (CER) decrease
of around 5% and 18%.
- Abstract(参考訳): ホモホン文字は、マンダリンやカントン語のような音節ベースの言語で一般的である。
データ集約型エンドツーエンド自動音声認識(asr)システムは、低リソース設定下でホモホン文字やレアワードを誤認識する傾向が強い。
本稿では,低音源のカントーン音声認識の問題に対して,音素辞書の人間的知識を言語モデル再構成によるビーム探索復号処理に統合する新しいホモフォン拡張手法を提案する。
また、カントン文字の変種をマージし、音声アノテーションガイドラインを標準化する自動統一ライティング手法を提案し、マージ文字のサンプルを多く提供することにより、ラベル付き発話をより効率的に利用できるようにする。
その結果、ホモホン拡張と統一書き込みの両方がドメイン内テストセットとドメイン外テストセットの両方において認識性能を大幅に向上させ、絶対文字誤り率(cer)は約5%と18%の低下を示した。
関連論文リスト
- Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition
and Phoneme to Grapheme Translation [9.118302330129284]
本研究は低リソース言語における2パスの言語間変換学習を最適化する。
共有調音特性に基づいて音素を融合させることにより,音素語彙のカバレッジを最適化する。
音素と音素の訓練中に, 現実的なASR雑音に対するグローバルな音素ノイズ発生装置を導入し, 誤りの伝搬を低減する。
論文 参考訳(メタデータ) (2023-12-06T06:37:24Z) - MUST&P-SRL: Multi-lingual and Unified Syllabification in Text and
Phonetic Domains for Speech Representation Learning [0.76146285961466]
言語特徴抽出の方法論として,複数の言語における単語の自動分割に着目した手法を提案する。
本手法は,テキストと音声の両領域において,テキストから音素の書き起こしを抽出すること,ストレスマーク,統合された自動音節分類に重点を置いている。
このシステムはオープンソースのコンポーネントとリソースで構築された。
論文 参考訳(メタデータ) (2023-10-17T19:27:23Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Spoken Term Detection Methods for Sparse Transcription in Very
Low-resource Settings [20.410074074340447]
2つの口頭言語での実験では、ターゲット言語音声のほんの数分で微調整された、事前訓練された普遍的な電話認識器が、音声語検出に使用できることが示されている。
グラフ構造における音素認識の曖昧さの表現は、低リソース音声語検出タスクにおいて高い精度を維持しながら、リコールをさらに促進できることを示す。
論文 参考訳(メタデータ) (2021-06-11T04:09:54Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Homophone-based Label Smoothing in End-to-End Automatic Speech
Recognition [8.066444614339614]
提案手法は、より複雑な方法で、ホモフォンの発音知識を使用する。
ハイブリッドCTCシークエンス・ツー・シーケンスモデルによる実験により、新しい手法は文字誤り率(CER)を0.4%削減できることが示された。
論文 参考訳(メタデータ) (2020-04-07T14:37:30Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。