Fugu-MT 論文翻訳(概要): End-to-End real time tracking of children's reading with pointer network

論文の概要: End-to-End real time tracking of children's reading with pointer network

arxiv url: http://arxiv.org/abs/2310.11486v1
Date: Tue, 17 Oct 2023 16:12:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 18:47:59.926393
Title: End-to-End real time tracking of children's reading with pointer network
Title（参考訳）: ポインタネットワークを用いた児童読書のエンド・ツー・エンドリアルタイム追跡
Authors: Vishal Sunder, Beulah Karrolla, Eric Fosler-Lussier
Abstract要約: 子どもの声に対して,リアルタイムの読み上げトラッカーを効率的に構築する方法を示す。我々は、ストリーミング音声に条件付き真実文の位置を直接予測するポインタネットワークを採用している。我々の最良のモデルは、87.8%の精度で、CMUキッズのデータで77.1%の精度で、より困難で不自由な子供のスピーチを正確に追跡することができる。
参考スコア（独自算出の注目度）: 11.362681035467121
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we explore how a real time reading tracker can be built efficiently for children's voices. While previously proposed reading trackers focused on ASR-based cascaded approaches, we propose a fully end-to-end model making it less prone to lags in voice tracking. We employ a pointer network that directly learns to predict positions in the ground truth text conditioned on the streaming speech. To train this pointer network, we generate ground truth training signals by using forced alignment between the read speech and the text being read on the training set. Exploring different forced alignment models, we find a neural attention based model is at least as close in alignment accuracy to the Montreal Forced Aligner, but surprisingly is a better training signal for the pointer network. Our results are reported on one adult speech data (TIMIT) and two children's speech datasets (CMU Kids and Reading Races). Our best model can accurately track adult speech with 87.8% accuracy and the much harder and disfluent children's speech with 77.1% accuracy on CMU Kids data and a 65.3% accuracy on the Reading Races dataset.
Abstract（参考訳）: 本研究では,子どもの声に対してリアルタイム読書トラッカーを効率的に構築する方法について検討する。従来,ASRに基づくケースケード手法に着目した読み上げトラッカーが提案されてきたが,音声追跡の遅延を緩和する完全エンドツーエンドモデルを提案する。我々は,ストリーミング音声で条件付けされた基底真理テキストの位置を直接学習し,位置予測を行うポインターネットワークを用いる。このポインターネットワークを訓練するために,学習セット上で読み上げられた音声と読み上げられたテキストとの強制アライメントを用いて,真理学習信号を生成する。異なる強制アライメントモデルについて検討すると、少なくともモントリオール強制アライメントモデルと同程度の精度で神経注意に基づくモデルが見つかるが、驚くべきことにポインターネットワークのトレーニング信号として優れている。成人音声データ(TIMIT)と児童音声データセット(CMU Kids and Reading Races)について報告する。我々の最良のモデルは、87.8%の精度で、CMU Kidsのデータでは77.1%の精度で、Reading Racesデータセットでは65.3%の精度で、大人のスピーチを正確に追跡することができる。

関連論文リスト

SpidR: Learning Fast and Stable Linguistic Units for Spoken Language Models Without Supervision [25.71776883846138]
SpidRは、高度にアクセス可能な音声情報で表現を効率的に学習する自己教師型音声表現モデルである。自己蒸留とオンラインクラスタリングを組み合わせたマスク付き予測目標を用いて生波形を訓練する。 wav2vec 2.0, HuBERT, WavLM, DinoSRをダウンストリーム言語モデリングベンチマークで上回ります。
論文参考訳（メタデータ） (2025-12-23T12:22:25Z)
KidSpeak: A General Multi-purpose LLM for Kids' Speech Recognition and Screening [29.54910094759367]
KidSpeakは、子どもの発話パターンに合わせて、生成的および差別的なタスクを同時に行うことができる、スピーチ強化基礎モデルである。本稿では,フレキシブル・アンド・オートマチック・スピーチ・アリグナー(FASA)を提案し,その手法を利用して高品質なデータセットを構築し,訓練と評価を行う。本発明の新しいアライメントツールは、ノイズの多いデータから子どもの音声の質を著しく向上させ、人間のアノテーションと比較してデータ品質を13.6倍に向上させる。
論文参考訳（メタデータ） (2025-12-01T00:19:37Z)
Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。 SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文参考訳（メタデータ） (2025-08-22T17:59:35Z)
Self-Supervised Models for Phoneme Recognition: Applications in Children's Speech for Reading Learning [9.670752318129326]
まず, フランス語音声における音素認識に適応したwav2vec 2.0, HuBERT, WavLMモデルを比較した。次に,子音の微調整中に変圧器ブロックを解凍することで適応する。 We show that WavLM base+ is more robust to various reading task and noise levels。
論文参考訳（メタデータ） (2025-03-06T18:57:16Z)
Personalized Speech Recognition for Children with Test-Time Adaptation [21.882608966462932]
主に成人データに基づいて事前訓練されたオフザシェルフ自動音声認識(ASR)モデルは、子供の発話に悪影響を及ぼす傾向にある。子どもの音声認識に教師なしテスト時間適応(TTA)手法を適用する新しいASRパイプラインを考案した。以上の結果から,TTA法に適応したASRモデルは,個々の子話者の平均および統計的に,未適応のASRベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-09-19T21:40:07Z)
Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文参考訳（メタデータ） (2024-08-07T08:18:51Z)
SignSpeak: Open-Source Time Series Classification for ASL Translation [0.12499537119440243]
本稿では,低コストでリアルタイムなASL-to-Speech翻訳グローブと手話パターンの学習データセットを提案する。このデータセットを、LSTM、GRU、Transformersなどの教師付き学習モデルでベンチマークし、最高のモデルが92%の精度を達成した。当社のオープンソースデータセット、モデル、グローブデザインは、コスト効率を維持しつつ、正確かつ効率的なASLトランスレータを提供する。
論文参考訳（メタデータ） (2024-06-27T17:58:54Z)
Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。 ASLデータセットのモデルによって達成される精度は99.12%である。このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文参考訳（メタデータ） (2024-06-06T04:05:12Z)
REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR [54.64158282822995]
教師なしASRにおける反復訓練を用いたREBORN, Reinforcement-Learned boundaryを提案する。 ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルのトレーニングと、セグメンテーションモデルによってセグメント化された音声特徴である音素予測モデルのトレーニングを交互に行い、音素転写を予測する。我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていることを発見した。
論文参考訳（メタデータ） (2024-02-06T13:26:19Z)
Jointly Learning Visual and Auditory Speech Representations from Raw Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。 RAVEnは視覚音声認識における全自己指導手法を超越している。
論文参考訳（メタデータ） (2022-12-12T21:04:06Z)
Nonwords Pronunciation Classification in Language Development Tests for Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文参考訳（メタデータ） (2022-06-16T10:19:47Z)
A study on the efficacy of model pre-training in developing neural text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文参考訳（メタデータ） (2021-10-08T02:09:28Z)
Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文参考訳（メタデータ） (2021-06-15T23:19:37Z)
Semi-Supervised Spoken Language Understanding via Self-Supervised Speech and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文参考訳（メタデータ） (2020-10-26T18:21:27Z)
Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文参考訳（メタデータ） (2020-01-30T18:01:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。