論文の概要: Multitask Learning for Grapheme-to-Phoneme Conversion of Anglicisms in
German Speech Recognition
- arxiv url: http://arxiv.org/abs/2105.12708v1
- Date: Wed, 26 May 2021 17:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:19:02.734524
- Title: Multitask Learning for Grapheme-to-Phoneme Conversion of Anglicisms in
German Speech Recognition
- Title(参考訳): ドイツ語音声認識における音韻変換のためのマルチタスク学習
- Authors: Julia Pritzen, Michael Gref, Christoph Schmidt, Dietlind Z\"uhlke
- Abstract要約: アングリシズム(英: Anglicisms)は、ドイツ語の発音が不規則であることによる、ドイツ語の音声認識における課題である。
本稿では,アングリシズムの音素化を改善するために,マルチタスク・シーケンス・ツー・シーケンス・アプローチを提案する。
マルチタスク学習は,ドイツ語音声認識における借用語の課題の解決に有効であることを示す。
- 参考スコア(独自算出の注目度): 1.3381749415517017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Loanwords, such as Anglicisms, are a challenge in German speech recognition.
Due to their irregular pronunciation compared to native German words,
automatically generated pronunciation dictionaries often include faulty phoneme
sequences for Anglicisms. In this work, we propose a multitask
sequence-to-sequence approach for grapheme-to-phoneme conversion to improve the
phonetization of Anglicisms. We extended a grapheme-to-phoneme model with a
classifier to distinguish Anglicisms from native German words. With this
approach, the model learns to generate pronunciations differently depending on
the classification result. We used our model to create supplementary Anglicism
pronunciation dictionaries that are added to an existing German speech
recognition model. Tested on a dedicated Anglicism evaluation set, we improved
the recognition of Anglicisms compared to a baseline model, reducing the word
error rate by 1 % and the Anglicism error rate by 3 %. We show that multitask
learning can help solving the challenge of loanwords in German speech
recognition.
- Abstract(参考訳): 英語のような借用語は、ドイツ語の音声認識における課題である。
ドイツ語の単語に比べて不規則な発音のため、自動生成された発音辞書は、しばしばアングリシズムの誤り音素配列を含む。
本稿では,グラニュムから音素への変換のためのマルチタスクシーケンスからシーケンスへのアプローチを提案し,アングリシズムの音声化を改善する。
英語とドイツ語の単語を区別する分類器を用いて,音素から音素へのグラフモデルを拡張した。
このアプローチでは、分類結果に応じて異なる発音を生成することを学習する。
既存のドイツ語音声認識モデルに付加された補足的英語発音辞書の作成に本モデルを用いた。
専用のアングリシズム評価セットを用いて,ベースラインモデルと比較してアングリシズムの認識を改善し,単語誤り率を1%,アングリシズムエラー率を3%削減した。
マルチタスク学習は,ドイツ語音声認識における借用語の課題の解決に有効であることを示す。
関連論文リスト
- Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings [12.669655363646257]
Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T13:25:38Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Computer-assisted Pronunciation Training -- Speech synthesis is almost
all you need [18.446969150062586]
既存のCAPT法では発音誤りを高精度に検出できない。
本稿では,音素対音素(P2P),テキスト対音声(T2S),音声対音声変換(S2S)の3つの革新的な手法を提案する。
これらの手法は、発音誤りを検出するための3つの機械学習モデルの精度を向上させるだけでなく、分野における新しい最先端の確立にも有効であることを示す。
論文 参考訳(メタデータ) (2022-07-02T08:33:33Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Grapheme-to-Phoneme Transformer Model for Transfer Learning Dialects [1.3786433185027864]
Grapheme-to-Phoneme(G2P)モデルは、単語を発音に変換する。
通常、辞書ベースの手法は構築にかなりの手作業を必要とし、目に見えない単語への適応性が制限されている。
本研究では,小さな辞書を用いながら,目に見えない英語の方言に適応するトランスフォーマーに基づく注意モデルを提案する。
論文 参考訳(メタデータ) (2021-04-08T21:36:21Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z) - A Swiss German Dictionary: Variation in Speech and Writing [45.82374977939355]
スイスドイツ語の諸方言における共通語の形態を含む辞書をハイドイツ語に正規化する。
この多様性に関連する不確実性を軽減するため、スイスドイツ語の高ドイツ語語対とスイスドイツ語の音素転写(SAMPA)を補完する。
したがって、この辞書は、大規模自然翻訳と音声の書き起こしを組み合わせた最初のリソースとなる。
論文 参考訳(メタデータ) (2020-03-31T22:10:43Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。