論文の概要: End-to-End real time tracking of children's reading with pointer network
- arxiv url: http://arxiv.org/abs/2310.11486v1
- Date: Tue, 17 Oct 2023 16:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:47:59.926393
- Title: End-to-End real time tracking of children's reading with pointer network
- Title(参考訳): ポインタネットワークを用いた児童読書のエンド・ツー・エンドリアルタイム追跡
- Authors: Vishal Sunder, Beulah Karrolla, Eric Fosler-Lussier
- Abstract要約: 子どもの声に対して,リアルタイムの読み上げトラッカーを効率的に構築する方法を示す。
我々は、ストリーミング音声に条件付き真実文の位置を直接予測するポインタネットワークを採用している。
我々の最良のモデルは、87.8%の精度で、CMUキッズのデータで77.1%の精度で、より困難で不自由な子供のスピーチを正確に追跡することができる。
- 参考スコア(独自算出の注目度): 11.362681035467121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we explore how a real time reading tracker can be built
efficiently for children's voices. While previously proposed reading trackers
focused on ASR-based cascaded approaches, we propose a fully end-to-end model
making it less prone to lags in voice tracking. We employ a pointer network
that directly learns to predict positions in the ground truth text conditioned
on the streaming speech. To train this pointer network, we generate ground
truth training signals by using forced alignment between the read speech and
the text being read on the training set. Exploring different forced alignment
models, we find a neural attention based model is at least as close in
alignment accuracy to the Montreal Forced Aligner, but surprisingly is a better
training signal for the pointer network. Our results are reported on one adult
speech data (TIMIT) and two children's speech datasets (CMU Kids and Reading
Races). Our best model can accurately track adult speech with 87.8% accuracy
and the much harder and disfluent children's speech with 77.1% accuracy on CMU
Kids data and a 65.3% accuracy on the Reading Races dataset.
- Abstract(参考訳): 本研究では,子どもの声に対してリアルタイム読書トラッカーを効率的に構築する方法について検討する。
従来,ASRに基づくケースケード手法に着目した読み上げトラッカーが提案されてきたが,音声追跡の遅延を緩和する完全エンドツーエンドモデルを提案する。
我々は,ストリーミング音声で条件付けされた基底真理テキストの位置を直接学習し,位置予測を行うポインターネットワークを用いる。
このポインターネットワークを訓練するために,学習セット上で読み上げられた音声と読み上げられたテキストとの強制アライメントを用いて,真理学習信号を生成する。
異なる強制アライメントモデルについて検討すると、少なくともモントリオール強制アライメントモデルと同程度の精度で神経注意に基づくモデルが見つかるが、驚くべきことにポインターネットワークのトレーニング信号として優れている。
成人音声データ(TIMIT)と児童音声データセット(CMU Kids and Reading Races)について報告する。
我々の最良のモデルは、87.8%の精度で、CMU Kidsのデータでは77.1%の精度で、Reading Racesデータセットでは65.3%の精度で、大人のスピーチを正確に追跡することができる。
関連論文リスト
- Personalized Speech Recognition for Children with Test-Time Adaptation [21.882608966462932]
主に成人データに基づいて事前訓練されたオフザシェルフ自動音声認識(ASR)モデルは、子供の発話に悪影響を及ぼす傾向にある。
子どもの音声認識に教師なしテスト時間適応(TTA)手法を適用する新しいASRパイプラインを考案した。
以上の結果から,TTA法に適応したASRモデルは,個々の子話者の平均および統計的に,未適応のASRベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-09-19T21:40:07Z) - Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - SignSpeak: Open-Source Time Series Classification for ASL Translation [0.12499537119440243]
本稿では,低コストでリアルタイムなASL-to-Speech翻訳グローブと手話パターンの学習データセットを提案する。
このデータセットを、LSTM、GRU、Transformersなどの教師付き学習モデルでベンチマークし、最高のモデルが92%の精度を達成した。
当社のオープンソースデータセット、モデル、グローブデザインは、コスト効率を維持しつつ、正確かつ効率的なASLトランスレータを提供する。
論文 参考訳(メタデータ) (2024-06-27T17:58:54Z) - Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文 参考訳(メタデータ) (2024-06-06T04:05:12Z) - REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR [54.64158282822995]
教師なしASRにおける反復訓練を用いたREBORN, Reinforcement-Learned boundaryを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルのトレーニングと、セグメンテーションモデルによってセグメント化された音声特徴である音素予測モデルのトレーニングを交互に行い、音素転写を予測する。
我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。
そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文 参考訳(メタデータ) (2021-06-15T23:19:37Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。