論文の概要: Utterance-Level Methods for Identifying Reliable ASR-Output for Child Speech
- arxiv url: http://arxiv.org/abs/2604.19801v1
- Date: Fri, 10 Apr 2026 18:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.093782
- Title: Utterance-Level Methods for Identifying Reliable ASR-Output for Child Speech
- Title(参考訳): 子どもの音声に対する信頼度ASR出力同定のための発話レベル手法
- Authors: Gus Lathouwers, Lingyun Gao, Catia Cucchiarini, Helmer Strik,
- Abstract要約: 発話レベルで信頼性のあるASR出力を選択するための2つのアプローチ、信頼性のある読み出し音声を選択するための1つ、対話音声材料のための1つ。
評価は英語とオランダ語のデータセットで行われ、それぞれがベースラインと微調整されたモデルで実施された。
その結果, 音声記録を確実に転写する発話レベル選択法は, 読解音声と対話音声の双方において, 最良の戦略(P > 97.4)の精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 8.773220566254972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) is increasingly used in applications involving child speech, such as language learning and literacy acquisition. However, the effectiveness of such applications is limited by high ASR error rates. The negative effects can be mitigated by identifying in advance which ASR-outputs are reliable. This work aims to develop two novel approaches for selecting reliable ASR-output at the utterance level, one for selecting reliable read speech and one for dialogue speech material. Evaluations were done on an English and a Dutch dataset, each with a baseline and finetuned model. The results show that utterance-level selection methods for identifying reliably transcribed speech recordings have high precision for the best strategy (P > 97.4) for both read speech and dialogue material, for both languages. Using the current optimal strategy allows 21.0% to 55.9% of dialogue/read speech datasets to be automatically selected with low (UER of < 2.6) error rates.
- Abstract(参考訳): 自動音声認識(ASR)は、言語学習やリテラシー獲得など、子供向け音声を含むアプリケーションでますます使われている。
しかし、そのような応用の有効性は高いASR誤差率によって制限される。
ASR出力の信頼性を事前に確認することで、負の効果を緩和することができる。
本研究は,音声レベルにおいて信頼性のあるASR出力を選択するための2つの新しいアプローチを開発することを目的としている。
評価は英語とオランダ語のデータセットで行われ、それぞれがベースラインと微調整されたモデルで実施された。
その結果, 音声記録を確実に転写する発話レベル選択法は, 読解音声と対話音声の双方において, 最良の戦略(P > 97.4)の精度が高いことがわかった。
現在の最適戦略を使用することで、対話/読み上げ音声データセットの21.0%から55.9%が自動的に低い (UER of < 2.6) エラーレートで選択される。
関連論文リスト
- Improving Code-Switching Speech Recognition with TTS Data Augmentation [58.34842693152991]
本稿では,この不足に対処する効果的なデータ拡張手法として,多言語テキスト音声(TTS)モデルについて検討する。
我々は、SEAMEデータセット上の多言語CosyVoice2 TTSモデルを微調整し、中国語と英語の合成音声を生成する。
論文 参考訳(メタデータ) (2026-01-02T10:11:51Z) - Contextual ASR Error Handling with LLMs Augmentation for Goal-Oriented Conversational AI [27.56203179880491]
汎用自動音声認識(ASR)システムは、目標指向対話において必ずしもよく機能しない。
我々は、事前のユーザデータを持たないタスクに修正を拡張し、語彙や構文の変化のような言語的柔軟性を示す。
論文 参考訳(メタデータ) (2025-01-10T17:35:06Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。
提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。
提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文 参考訳(メタデータ) (2023-08-10T01:02:45Z) - Topic Identification For Spontaneous Speech: Enriching Audio Features
With Embedded Linguistic Information [10.698093106994804]
音声からの従来の話題識別ソリューションは、音声認識システム(ASR)に依存して書き起こしを生成する。
テキストと音声を共同で活用する,音声のみとハイブリッド技術の比較を行った。
フィンランドの自然発話で評価されたモデルは、純粋な音声ベースのソリューションが、ASRコンポーネントが利用できない場合に実行可能な選択肢であることを示している。
論文 参考訳(メタデータ) (2023-07-21T09:30:46Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。