論文の概要: Graph Connectionist Temporal Classification for Phoneme Recognition
- arxiv url: http://arxiv.org/abs/2509.05399v1
- Date: Fri, 05 Sep 2025 15:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.497863
- Title: Graph Connectionist Temporal Classification for Phoneme Recognition
- Title(参考訳): 音素認識のためのグラフ接続型時間分類法
- Authors: Henry Grafé, Hugo Van hamme,
- Abstract要約: グラフ時間分類(GTC)を自動音素認識(APR)設定に適用する。
GTCは、代替音素列のグラフからのトレーニングを可能にし、モデルが単語ごとの複数の発音を有効な監視対象とすることができる。
英語とオランダ語のデータセットの実験では、単語毎の発音をトレーニング損失に組み込むことで、音素誤り率を一貫して改善している。
- 参考スコア(独自算出の注目度): 15.311893064721858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Phoneme Recognition (APR) systems are often trained using pseudo phoneme-level annotations generated from text through Grapheme-to-Phoneme (G2P) systems. These G2P systems frequently output multiple possible pronunciations per word, but the standard Connectionist Temporal Classification (CTC) loss cannot account for such ambiguity during training. In this work, we adapt Graph Temporal Classification (GTC) to the APR setting. GTC enables training from a graph of alternative phoneme sequences, allowing the model to consider multiple pronunciations per word as valid supervision. Our experiments on English and Dutch data sets show that incorporating multiple pronunciations per word into the training loss consistently improves phoneme error rates compared to a baseline trained with CTC. These results suggest that integrating pronunciation variation into the loss function is a promising strategy for training APR systems from noisy G2P-based supervision.
- Abstract(参考訳): 自動音素認識(APR)システムは、しばしばG2P(Grapheme-to-Phoneme)システムを通じてテキストから生成された擬音素レベルのアノテーションを用いて訓練される。
これらのG2Pシステムは、単語毎に複数の可能な発音を出力するが、標準接続時分類(CTC)の損失は、訓練中にそのような曖昧さを考慮できない。
本研究では,グラフ時間分類(GTC)をAPR設定に適用する。
GTCは、代替音素列のグラフからのトレーニングを可能にし、モデルが単語ごとの複数の発音を有効な監視対象とすることができる。
英語とオランダ語のデータセットを用いた実験により,単語毎の発音をトレーニング損失に組み込むことで,CTCで訓練したベースラインと比較して音素誤り率を一定に向上することが示された。
これらの結果から,発音変化を損失関数に組み込むことが,ノイズの多いG2Pに基づく監視からAPRシステムのトレーニングに有望な戦略であることが示唆された。
関連論文リスト
- Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [56.972851337263755]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。
この手法により, 単語誤り率の相対的な改善を最大11%に抑えつつ, 単語誤り率の競争力を維持することができることを示す。
論文 参考訳(メタデータ) (2025-06-23T14:42:03Z) - Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings [12.669655363646257]
Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T13:25:38Z) - DTW-SiameseNet: Dynamic Time Warped Siamese Network for Mispronunciation
Detection and Correction [1.8322859214908722]
本稿では,TTS誤発音検出と修正のタスクのための,高精度でPDA対応の発音学習フレームワークを提案する。
また,三重項損失を伴う動的時間ワープ(DTW)のためのメトリクス学習を用いたDTW-SiameseNetという,新しい誤発音検出モデルを提案する。
人間の評価から,提案手法は音素ベースや音声ベースラインに比べて平均6%の発音精度が向上することが示された。
論文 参考訳(メタデータ) (2023-03-01T01:53:11Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文 参考訳(メタデータ) (2022-03-01T05:02:02Z) - Word Order Does Not Matter For Speech Recognition [35.96275156733138]
全ての出力フレームの分布を集約する単語レベル音響モデルを訓練する。
次に、コネクショニストの時間的分類損失を用いて文字ベース音響モデルを訓練する。
本システムでは,LibriSpeechの2.4%/5.3%をテストクリーン/テスト-その他のサブセットで実現している。
論文 参考訳(メタデータ) (2021-10-12T13:35:01Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Neural Machine Translation for Multilingual Grapheme-to-Phoneme
Conversion [13.543705472805431]
複数の言語で同じエンコーダとデコーダを共有する単一エンドツーエンドのニューラルネットワークG2Pモデルを提案する。
その結果,低リソース言語に対する音素誤り率の平均は7.2%向上し,単言語ベースラインと比較して高いリソースエラー率が得られなかった。
論文 参考訳(メタデータ) (2020-06-25T06:16:29Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。