論文の概要: Goodness-of-pronunciation without phoneme time alignment
- arxiv url: http://arxiv.org/abs/2603.25150v1
- Date: Thu, 26 Mar 2026 08:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.17615
- Title: Goodness-of-pronunciation without phoneme time alignment
- Title(参考訳): 音韻時間アライメントのない発音の良さ
- Authors: Jeremy H. M. Wong, Nancy F. Chen,
- Abstract要約: オープンソースの弱教師付きモデルは、多くの言語でASRが可能であるが、フレーム同期であり、音素ではない。
本稿では,弱い教師付きモデルによる特徴抽出の不整合性を克服することを提案する。
音素後部は、ASR仮説を音素混乱ネットワークにマッピングすることで計算される。
- 参考スコア(独自算出の注目度): 40.19694209745764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In speech evaluation, an Automatic Speech Recognition (ASR) model often computes time boundaries and phoneme posteriors for input features. However, limited data for ASR training hinders expansion of speech evaluation to low-resource languages. Open-source weakly-supervised models are capable of ASR over many languages, but they are frame-asynchronous and not phonemic, hindering feature extraction for speech evaluation. This paper proposes to overcome incompatibilities for feature extraction with weakly-supervised models, easing expansion of speech evaluation to low-resource languages. Phoneme posteriors are computed by mapping ASR hypotheses to a phoneme confusion network. Word instead of phoneme-level speaking rate and duration are used. Phoneme and frame-level features are combined using a cross-attention architecture, obviating phoneme time alignment. This performs comparably with standard frame-synchronous features on English speechocean762 and low-resource Tamil datasets.
- Abstract(参考訳): 音声評価において、自動音声認識(ASR)モデルは入力特徴に対する時間境界と音素後部をしばしば計算する。
しかし、ASR訓練のための限られたデータは、低リソース言語への音声評価の拡大を妨げる。
オープンソースの弱教師付きモデルは、多くの言語でASRが可能であるが、フレーム同期であり、音素ではないため、音声評価のための特徴抽出を妨げている。
本稿では、弱教師付きモデルによる特徴抽出の不整合性を克服し、低リソース言語への音声評価の展開を緩和することを提案する。
音素後部は、ASR仮説を音素混乱ネットワークにマッピングすることで計算される。
音素レベルの発話速度と持続時間の代わりに単語を用いる。
音素レベルとフレームレベルの機能は、音素タイムアライメントを妨げるクロスアテンションアーキテクチャを使って結合される。
これは、標準フレーム同期機能と互換性があり、英語の speechocean762 と低リソースの Tamil データセットで機能する。
関連論文リスト
- PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。
PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文 参考訳(メタデータ) (2026-01-20T15:00:36Z) - WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - ASR Benchmarking: Need for a More Representative Conversational Dataset [3.017953715883516]
本研究では、大人同士の非構造的な会話からなる、TalkBankから派生した多言語会話データセットを提案する。
その結果,会話環境下でのテストでは,様々な最先端のASRモデルに対して顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2024-09-18T15:03:04Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Phoneme-BERT: Joint Language Modelling of Phoneme Sequence and ASR
Transcript [6.696983725360809]
PhonemeBERTは、音素シーケンスとASR文字による共同言語モデルを学び、音素認識表現を学習する。
3つのベンチマークデータセットに対してノイズの多いデータを生成することで、我々のアプローチを広範囲に評価する。
論文 参考訳(メタデータ) (2021-02-01T12:45:15Z) - Context-Dependent Acoustic Modeling without Explicit Phone Clustering [45.07737874541304]
音素に基づく大語彙自動音声認識の音響モデリングは,音素文脈を利用する。
本研究では,ハイブリッドディープニューラルネットワーク(DNN/HMM)の直接音声コンテキストモデリングについて述べる。
中心音素状態とその左右の文脈の結合確率の異なる分解を行うことにより、異なる成分からなる分解ネットワークを得る。
論文 参考訳(メタデータ) (2020-05-15T14:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。