論文の概要: End-to-End real time tracking of children's reading with pointer network
- arxiv url: http://arxiv.org/abs/2310.11486v1
- Date: Tue, 17 Oct 2023 16:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:47:59.926393
- Title: End-to-End real time tracking of children's reading with pointer network
- Title(参考訳): ポインタネットワークを用いた児童読書のエンド・ツー・エンドリアルタイム追跡
- Authors: Vishal Sunder, Beulah Karrolla, Eric Fosler-Lussier
- Abstract要約: 子どもの声に対して,リアルタイムの読み上げトラッカーを効率的に構築する方法を示す。
我々は、ストリーミング音声に条件付き真実文の位置を直接予測するポインタネットワークを採用している。
我々の最良のモデルは、87.8%の精度で、CMUキッズのデータで77.1%の精度で、より困難で不自由な子供のスピーチを正確に追跡することができる。
- 参考スコア(独自算出の注目度): 11.362681035467121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we explore how a real time reading tracker can be built
efficiently for children's voices. While previously proposed reading trackers
focused on ASR-based cascaded approaches, we propose a fully end-to-end model
making it less prone to lags in voice tracking. We employ a pointer network
that directly learns to predict positions in the ground truth text conditioned
on the streaming speech. To train this pointer network, we generate ground
truth training signals by using forced alignment between the read speech and
the text being read on the training set. Exploring different forced alignment
models, we find a neural attention based model is at least as close in
alignment accuracy to the Montreal Forced Aligner, but surprisingly is a better
training signal for the pointer network. Our results are reported on one adult
speech data (TIMIT) and two children's speech datasets (CMU Kids and Reading
Races). Our best model can accurately track adult speech with 87.8% accuracy
and the much harder and disfluent children's speech with 77.1% accuracy on CMU
Kids data and a 65.3% accuracy on the Reading Races dataset.
- Abstract(参考訳): 本研究では,子どもの声に対してリアルタイム読書トラッカーを効率的に構築する方法について検討する。
従来,ASRに基づくケースケード手法に着目した読み上げトラッカーが提案されてきたが,音声追跡の遅延を緩和する完全エンドツーエンドモデルを提案する。
我々は,ストリーミング音声で条件付けされた基底真理テキストの位置を直接学習し,位置予測を行うポインターネットワークを用いる。
このポインターネットワークを訓練するために,学習セット上で読み上げられた音声と読み上げられたテキストとの強制アライメントを用いて,真理学習信号を生成する。
異なる強制アライメントモデルについて検討すると、少なくともモントリオール強制アライメントモデルと同程度の精度で神経注意に基づくモデルが見つかるが、驚くべきことにポインターネットワークのトレーニング信号として優れている。
成人音声データ(TIMIT)と児童音声データセット(CMU Kids and Reading Races)について報告する。
我々の最良のモデルは、87.8%の精度で、CMU Kidsのデータでは77.1%の精度で、Reading Racesデータセットでは65.3%の精度で、大人のスピーチを正確に追跡することができる。
関連論文リスト
- REBORN: Reinforcement-Learned Boundary Segmentation with Iterative
Training for Unsupervised ASR [57.38162437636364]
教師なしASRにおける反復訓練による強化学習境界REBORNを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルを訓練し、音素予測モデルを訓練する。
我々は広範囲な実験を行い、REBORNはLibriSpeech, TIMIT, and five non- English languages in Multilingual LibriSpeechにおいて、以前の教師なしASRモデルよりも優れていたことを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - SPIRAL: Self-supervised Perturbation-Invariant Representation Learning
for Speech Pre-Training [25.80559992732508]
SPIRALは、教師/学生のフレームワークにおいて、摂動データの表現を聴覚的に学習することで機能する。
本稿では,実環境における音声応用において重要なノイズ・ロバスト性の問題に対処する。
論文 参考訳(メタデータ) (2022-01-25T09:53:36Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。
そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文 参考訳(メタデータ) (2021-06-15T23:19:37Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - Semi-Supervised Speech Recognition via Local Prior Matching [42.311823406287864]
局所的な事前マッチングは、強い事前から知識を蒸留する半教師付き目的である。
我々は,LPMが理論的に良好であり,実装が容易であり,既存の知識蒸留技術よりも優れていることを実証した。
論文 参考訳(メタデータ) (2020-02-24T16:07:11Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。