論文の概要: Enabling automatic transcription of child-centered audio recordings from real-world environments
- arxiv url: http://arxiv.org/abs/2506.11747v1
- Date: Fri, 13 Jun 2025 13:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.794756
- Title: Enabling automatic transcription of child-centered audio recordings from real-world environments
- Title(参考訳): 実環境からの子供中心オーディオ記録の自動書き起こし
- Authors: Daniil Kocharov, Okko Räsänen,
- Abstract要約: 本稿では,現代のASRシステムで確実に書き起こせる長音素音声における発話を自動的に検出する手法を提案する。
その結果,データセット中の全音声の13%を翻訳すると,平均単語誤り率0%,平均単語誤り率18%が得られることがわかった。
- 参考スコア(独自算出の注目度): 10.369750912567714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Longform audio recordings obtained with microphones worn by children-also known as child-centered daylong recordings-have become a standard method for studying children's language experiences and their impact on subsequent language development. Transcripts of longform speech audio would enable rich analyses at various linguistic levels, yet the massive scale of typical longform corpora prohibits comprehensive manual annotation. At the same time, automatic speech recognition (ASR)-based transcription faces significant challenges due to the noisy, unconstrained nature of real-world audio, and no existing study has successfully applied ASR to transcribe such data. However, previous attempts have assumed that ASR must process each longform recording in its entirety. In this work, we present an approach to automatically detect those utterances in longform audio that can be reliably transcribed with modern ASR systems, allowing automatic and relatively accurate transcription of a notable proportion of all speech in typical longform data. We validate the approach on four English longform audio corpora, showing that it achieves a median word error rate (WER) of 0% and a mean WER of 18% when transcribing 13% of the total speech in the dataset. In contrast, transcribing all speech without any filtering yields a median WER of 52% and a mean WER of 51%. We also compare word log-frequencies derived from the automatic transcripts with those from manual annotations and show that the frequencies correlate at r = 0.92 (Pearson) for all transcribed words and r = 0.98 for words that appear at least five times in the automatic transcripts. Overall, the work provides a concrete step toward increasingly detailed automated linguistic analyses of child-centered longform audio.
- Abstract(参考訳): 子どもが着るマイクロフォンを用いた長音録音は、子どもの言語経験とその後の言語発達への影響を研究するための標準的な方法となった。
ロングフォーム音声のトランスクリプトは様々な言語レベルでリッチな分析を可能にするが、典型的なロングフォームコーパスの大規模化は包括的なマニュアルアノテーションを禁止している。
同時に、実世界の音声のノイズや制約のない性質のため、自動音声認識(ASR)ベースの転写は重大な課題に直面しており、既存の研究では、それらのデータの書き起こしにASRをうまく応用していない。
しかし、以前の試みでは、ASRは各ロングフォーム録音を全体にわたって処理しなければならないと仮定していた。
本研究では,従来のASRシステムで確実に書き起こし可能な長大音声における発話を自動的に検出し,典型的な長大データにおける全音声の顕著な割合の自動的かつ比較的正確な書き起こしを可能にする手法を提案する。
提案手法を英語長大音声コーパスで検証し,データセット中の全音声の13%を翻訳した場合の平均単語誤り率(WER)が0%,平均単語誤り率(WER)が18%となることを示す。
対照的に、全ての音声をフィルタリングせずに書き起こすと、中央値のWERは52%、平均値のWERは51%となる。
また、自動転写書から得られた単語ログ頻度と手書きアノテーションから得られた単語ログ頻度を比較し、すべての転写語について r = 0.92 (ピアソン) に相関し、自動転写書に少なくとも5回出現する単語について r = 0.98 にr = 0.92 (ピアソン) に相関していることを示す。
全体として、この研究は、子供中心のロングフォームオーディオのより詳細な言語分析への具体的なステップを提供する。
関連論文リスト
- Benchmarking Automatic Speech Recognition coupled LLM Modules for Medical Diagnostics [0.0]
本報告は、医療電話記録に微調整されたモデルを分析する、私のセルフプロジェクトとして機能する。
音声書き起こしのための音声認識(ASR)と文脈認識のための大規模言語モデル(LLM)を解析する。
論文 参考訳(メタデータ) (2025-02-18T14:05:13Z) - Algorithms For Automatic Accentuation And Transcription Of Russian Texts In Speech Recognition Systems [0.0]
本稿では,ロシア語テキストの自動アクセント化と音韻転写のためのルールベースシステムの概要について述べる。
開発したシステムの2つの部分、アクセントと文字起こしは、入力句の正しい音韻表現を実現するために異なるアプローチを用いている。
開発ツールキットはPython言語で書かれており、興味のある研究者はGitHubからアクセスできる。
論文 参考訳(メタデータ) (2024-10-03T14:43:43Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Evaluation of Automated Speech Recognition Systems for Conversational
Speech: A Linguistic Perspective [0.0]
我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。
我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
論文 参考訳(メタデータ) (2022-11-05T04:35:40Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - SkinAugment: Auto-Encoding Speaker Conversions for Automatic Speech
Translation [12.292167129361825]
自動音声翻訳における訓練データ拡張のための自動符号化話者変換を提案する。
この技術は直接音声シーケンスを変換し、その結果、他の話者の声に似た音声が合成される。
提案手法は,英語$to$ Frenchと英語$to$Romanian Automatic Speech Translation (AST)タスクのSpecAugmentと比較した。
論文 参考訳(メタデータ) (2020-02-27T16:22:42Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。