論文の概要: CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds
- arxiv url: http://arxiv.org/abs/2305.00969v6
- Date: Tue, 16 Jan 2024 21:49:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 21:36:36.836979
- Title: CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds
- Title(参考訳): CryCeleb:幼児のCry音に基づく話者検証データセット
- Authors: David Budaghyan, Charles C. Onu, Arsenii Gorin, Cem Subakan, Doina
Precup
- Abstract要約: 786人の新生児から手動で発声した6時間以上の涙音を学術的に利用した。
最高性能のシステムは25.8%の誤差率で大幅な改善を達成した。
このデータセットにはさらなる研究の余地があり、検証タスクを超えて拡張される可能性がある。
- 参考スコア(独自算出の注目度): 35.3261512240493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the Ubenwa CryCeleb dataset - a labeled collection of
infant cries - and the accompanying CryCeleb 2023 task, which is a public
speaker verification challenge based on cry sounds. We released more than 6
hours of manually segmented cry sounds from 786 newborns for academic use,
aiming to encourage research in infant cry analysis. The inaugural public
competition attracted 59 participants, 11 of whom improved the baseline
performance. The top-performing system achieved a significant improvement
scoring 25.8% equal error rate, which is still far from the performance of
state-of-the-art adult speaker verification systems. Therefore, we believe
there is room for further research on this dataset, potentially extending
beyond the verification task.
- Abstract(参考訳): 本稿では,幼児の泣き声をラベル付けしたUbenwa CryCelebデータセットと,それに付随するCryCeleb 2023タスクについて述べる。
乳児の涙分析研究を奨励するために,786人の新生児から手動で発声した6時間以上の涙音を学術的に利用した。
最初の公募では59人が参加し、11人がベースラインのパフォーマンスを改善した。
最高性能のシステムは25.8%の対等なエラー率で大幅な改善を達成したが、これはまだ最先端の成人話者認証システムのパフォーマンスには程遠い。
したがって、このデータセットにはさらなる研究の余地があり、検証タスクを超えて拡張される可能性がある。
関連論文リスト
- Towards the Synthesis of Non-speech Vocalizations [1.5039745292757674]
DiffWave フレームワークを用いて,幼児の泣き声を無条件に生成することに焦点を当てた。
Baby ChillantoとDeBarbaro cryデータセットの2つの異なるデータセットを使用します。
これらのデータセットは、DiffWaveモデルをトレーニングして、高い忠実度と多様性を維持する新しい泣き音を生成するために使用される。
論文 参考訳(メタデータ) (2024-10-12T04:00:56Z) - Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults [4.765434968114876]
我々は、より効率的なデータ前処理により、MySTデータセットの有用性を高める。
この改善は、目に見えないデータセットに一般化できることを示す。
その結果,Whisperの有効かつ効率的な統合が,効果的な子どもの音声認識に有効であることが示された。
論文 参考訳(メタデータ) (2023-09-12T06:58:18Z) - Detection of Children Abuse by Voice and Audio Classification by
Short-Time Fourier Transform Machine Learning implemented on Nvidia Edge GPU
device [0.0]
この実験は、機械学習を使って子供の声を分類し、認識する。
子供が泣き叫んだり叫んだりすると、直ちに関連する職員に警告が送られる。
論文 参考訳(メタデータ) (2023-07-27T16:48:19Z) - VoxSRC 2022: The Fourth VoxCeleb Speaker Recognition Challenge [95.6159736804855]
VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22)は、InterSPEECH 2022と共同で開催された。
この課題の目的は、最先端の話者認識システムが「野生」で得られた音声から話者を識別し、分類し、認識できるかどうかを評価することである。
論文 参考訳(メタデータ) (2023-02-20T19:27:14Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - ARCA23K: An audio dataset for investigating open-set label noise [48.683197172795865]
本稿では、23,000以上のラベル付きFreesoundクリップからなる自動検索およびキュレートされたオーディオデータセットであるARCA23Kを紹介する。
本稿では,ARCA23Kのラベリング誤りの大部分は語彙外音声クリップによるものであり,このタイプのラベリングノイズをオープンセットラベルノイズと呼ぶ。
論文 参考訳(メタデータ) (2021-09-19T21:10:25Z) - Infant Vocal Tract Development Analysis and Diagnosis by Cry Signals
with CNN Age Classification [3.205396037615997]
本稿では,畳み込みニューラルネットワーク(CNN)による年齢分類による乳児の涙信号の非侵襲的利用法を提案する。
方法の精度は, 健常者では79.20%, 窒息者では84.80%, 難聴者では91.20%である。
論文 参考訳(メタデータ) (2021-04-23T03:09:16Z) - Senone-aware Adversarial Multi-task Training for Unsupervised Child to
Adult Speech Adaptation [26.065719754453823]
本研究では,成人音声と幼児音声のセノンレベルにおける音響ミスマッチを最小限に抑える特徴適応手法を提案する。
提案手法は, 児童音声認識, 児童発音評価, 児童流動度スコア予測の3つのタスクで検証した。
論文 参考訳(メタデータ) (2021-02-23T04:49:27Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge [99.82500204110015]
第2回「VoxCeleb Speaker Recognition Challenge」をInterspeech 2020と共に開催しました。
この課題の目的は、現在のスピーカー認識技術が、制約のないデータまたは野生のデータでスピーカーをダイアライズして認識できるかどうかを評価することでした。
本稿では,その課題を概説し,ベースライン,使用方法,結果について述べる。
論文 参考訳(メタデータ) (2020-12-12T17:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。