論文の概要: Building Tailored Speech Recognizers for Japanese Speaking Assessment
- arxiv url: http://arxiv.org/abs/2509.20655v1
- Date: Thu, 25 Sep 2025 01:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.64717
- Title: Building Tailored Speech Recognizers for Japanese Speaking Assessment
- Title(参考訳): 日本語音声アセスメントのための台詞認識器の構築
- Authors: Yotaro Kubo, Richard Sproat, Chihiro Taguchi, Llion Jones,
- Abstract要約: 我々はアクセントマーカーで音声ラベルを出力する音声認識器を構築した。
日本語は資源に富んでいるが、正確な音素の書き起こしを行うための訓練用データはほとんどない。
- 参考スコア(独自算出の注目度): 6.152272170188488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents methods for building speech recognizers tailored for Japanese speaking assessment tasks. Specifically, we build a speech recognizer that outputs phonemic labels with accent markers. Although Japanese is resource-rich, there is only a small amount of data for training models to produce accurate phonemic transcriptions that include accent marks. We propose two methods to mitigate data sparsity. First, a multitask training scheme introduces auxiliary loss functions to estimate orthographic text labels and pitch patterns of the input signal, so that utterances with only orthographic annotations can be leveraged in training. The second fuses two estimators, one over phonetic alphabet strings, and the other over text token sequences. To combine these estimates we develop an algorithm based on the finite-state transducer framework. Our results indicate that the use of multitask learning and fusion is effective for building an accurate phonemic recognizer. We show that this approach is advantageous compared to the use of generic multilingual recognizers. The relative advantages of the proposed methods were also compared. Our proposed methods reduced the average of mora-label error rates from 12.3% to 7.1% over the CSJ core evaluation sets.
- Abstract(参考訳): 本稿では,日本語音声評価タスクに適した音声認識器構築手法を提案する。
具体的には,アクセントマーカー付き音声ラベルを出力する音声認識器を構築する。
日本語は資源に富んでいるが、アクセントマークを含む正確な音韻書き起こしを行うための訓練用データはほとんどない。
データの分散を緩和する2つの方法を提案する。
まず,テキストラベルと入力信号のピッチパターンを推定する補助的損失関数を導入し,テキストアノテーションのみを用いた発話を訓練に活用する。
2つ目は2つの推定器を融合させ、1つは音素のアルファベット文字列で、もう1つはテキストトークンシーケンスで融合する。
これらの推定値を組み合わせるために,有限状態トランスデューサフレームワークに基づくアルゴリズムを開発した。
この結果から,マルチタスク学習と融合の併用が,音韻認識の精度向上に有効であることが示唆された。
本手法は汎用多言語認識器と比較して有利であることを示す。
提案手法の相対的な利点も比較した。
提案手法は,CSJコア評価セットに対して,モララベル誤り率の平均を12.3%から7.1%に下げる。
関連論文リスト
- Transcript-Prompted Whisper with Dictionary-Enhanced Decoding for Japanese Speech Annotation [4.314729314139958]
音声と韻律のラベルを与えられた音声と音声のペアにアノテートする方法を提案する。
音韻ラベリングにおける誤りの訂正に辞書事前知識を用いた復号方式を用いる。
提案手法を用いてアノテートしたラベルで訓練したTTSモデルにより合成された音声の自然性は,手動のアノテーションで訓練したモデルに匹敵することを示す。
論文 参考訳(メタデータ) (2025-06-09T11:10:24Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Take the Hint: Improving Arabic Diacritization with
Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。
また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文 参考訳(メタデータ) (2023-06-06T10:18:17Z) - Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-15T04:08:10Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Spoken Term Detection Methods for Sparse Transcription in Very
Low-resource Settings [20.410074074340447]
2つの口頭言語での実験では、ターゲット言語音声のほんの数分で微調整された、事前訓練された普遍的な電話認識器が、音声語検出に使用できることが示されている。
グラフ構造における音素認識の曖昧さの表現は、低リソース音声語検出タスクにおいて高い精度を維持しながら、リコールをさらに促進できることを示す。
論文 参考訳(メタデータ) (2021-06-11T04:09:54Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。