論文の概要: Children's Speech Recognition through Discrete Token Enhancement
- arxiv url: http://arxiv.org/abs/2406.13431v2
- Date: Mon, 24 Jun 2024 15:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 13:26:35.294418
- Title: Children's Speech Recognition through Discrete Token Enhancement
- Title(参考訳): 離散的音声強調による子どもの音声認識
- Authors: Vrunda N. Sukhadia, Shammur Absar Chowdhury,
- Abstract要約: 本研究では,ASRの性能を著しく低下させることなく,個々の音声トークンを幼児の音声認識システムに組み込むことを入力として検討する。
その結果,子供用離散トークンASRは,約83%のパラメータでほぼ同等の性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 7.964926333613502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Children's speech recognition is considered a low-resource task mainly due to the lack of publicly available data. There are several reasons for such data scarcity, including expensive data collection and annotation processes, and data privacy, among others. Transforming speech signals into discrete tokens that do not carry sensitive information but capture both linguistic and acoustic information could be a solution for privacy concerns. In this study, we investigate the integration of discrete speech tokens into children's speech recognition systems as input without significantly degrading the ASR performance. Additionally, we explored single-view and multi-view strategies for creating these discrete labels. Furthermore, we tested the models for generalization capabilities with unseen domain and nativity dataset. Results reveal that the discrete token ASR for children achieves nearly equivalent performance with an approximate 83% reduction in parameters.
- Abstract(参考訳): 子どもの音声認識は、公開データの欠如が主な理由として、低リソースの課題と見なされている。
このようなデータ不足には、高価なデータ収集やアノテーションプロセス、データプライバシなど、いくつかの理由がある。
音声信号を機密情報を保持せず、言語情報と音響情報の両方をキャプチャする離散トークンに変換することは、プライバシー上の問題に対する解決策になり得る。
本研究では,ASRの性能を著しく低下させることなく,個々の音声トークンを幼児の音声認識システムに組み込むことを入力として検討する。
さらに、これらの離散ラベルを作成するためのシングルビューとマルチビュー戦略についても検討した。
さらに、未確認領域とナビティビティデータセットを用いて一般化能力のモデルを検証した。
その結果,子供用離散トークンASRは,約83%のパラメータでほぼ同等の性能を発揮することがわかった。
関連論文リスト
- Enhancing Synthetic Training Data for Speech Commands: From ASR-Based Filtering to Domain Adaptation in SSL Latent Space [10.875499903992782]
我々は、音声コマンド分類の特定のタスクに対して、合成音声データを用いてゼロショット学習に関する一連の実験を行う。
Google Speech Commands データセットの結果から,単純な ASR ベースのフィルタリング手法が生成したデータの品質に大きな影響を及ぼす可能性が示唆された。
生成した音声データの品質は高いが,自己教師付き(WavLM)機能を用いることで,合成音声と実音声の区別が容易に可能であることを示す。
論文 参考訳(メタデータ) (2024-09-19T13:07:55Z) - FASA: a Flexible and Automatic Speech Aligner for Extracting High-quality Aligned Children Speech Data [22.933382649048113]
そこで我々は,高品質な子どもの音声データを抽出するフレキシブルかつ自動的な音声整列器として,新しい強制調整ツールFASAを提案する。
CHILDESデータセットでの使用例を示し、FASAが人間のアノテーションよりも13.6$times$でデータ品質を改善することを示す。
論文 参考訳(メタデータ) (2024-06-25T20:37:16Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - Improving Fairness and Robustness in End-to-End Speech Recognition
through unsupervised clustering [49.069298478971696]
エンド・ツー・エンドASRの公平性と堅牢性を改善するためのプライバシー保護手法を提案する。
公開データセット上で訓練された話者IDモデルを用いて発話レベルの埋め込みを抽出する。
モデル学習において,話者発話の埋め込みの代わりにクラスタIDを付加的な特徴として用いた。
論文 参考訳(メタデータ) (2023-06-06T21:13:08Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Content-Context Factorized Representations for Automated Speech
Recognition [12.618527387900079]
本稿では、教師なしのエンコーダに依存しない音声エンコーダ表現を明示的なコンテンツエンコーダ表現と刺激的なコンテキストエンコーダ表現に分解する手法を提案する。
我々は,標準的なASRベンチマークの性能向上に加えて,実環境と人工ノイズの両方のASRシナリオの性能向上を実証した。
論文 参考訳(メタデータ) (2022-05-19T21:34:40Z) - WLASL-LEX: a Dataset for Recognising Phonological Properties in American
Sign Language [2.814213966364155]
我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。
データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-03-11T17:21:24Z) - Unsupervised Automatic Speech Recognition: A Review [2.6212127510234797]
研究文献をレビューし、完全に教師なしのASRにつながる可能性のあるモデルとアイデアを特定します。
本研究の目的は,音声データのみから学習できることの限界を特定し,音声認識の最小要件を理解することである。
論文 参考訳(メタデータ) (2021-06-09T08:33:20Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。