Fugu-MT 論文翻訳(概要): CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

論文の概要: CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

arxiv url: http://arxiv.org/abs/2305.00969v5
Date: Thu, 21 Sep 2023 20:02:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-25 19:05:20.750305
Title: CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds
Title（参考訳）: CryCeleb:幼児のCry音に基づく話者検証データセット
Authors: David Budaghyan, Charles C. Onu, Arsenii Gorin, Cem Subakan, Doina Precup
Abstract要約: 786人の新生児から手動で発声した6時間以上の涙音を学術的に利用した。最高性能のシステムは25.8%の誤差率で大幅な改善を達成した。このデータセットにはさらなる研究の余地があり、検証タスクを超えて拡張される可能性がある。
参考スコア（独自算出の注目度）: 35.3261512240493
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper describes the Ubenwa CryCeleb dataset - a labeled collection of infant cries - and the accompanying CryCeleb 2023 task, which is a public speaker verification challenge based on cry sounds. We released more than 6 hours of manually segmented cry sounds from 786 newborns for academic use, aiming to encourage research in infant cry analysis. The inaugural public competition attracted 59 participants, 11 of whom improved the baseline performance. The top-performing system achieved a significant improvement scoring 25.8% equal error rate, which is still far from the performance of state-of-the-art adult speaker verification systems. Therefore, we believe there is room for further research on this dataset, potentially extending beyond the verification task.
Abstract（参考訳）: 本稿では,幼児の泣き声をラベル付けしたUbenwa CryCelebデータセットと,それに付随するCryCeleb 2023タスクについて述べる。乳児の涙分析研究を奨励するために,786人の新生児から手動で発声した6時間以上の涙音を学術的に利用した。最初の公募では59人が参加し、11人がベースラインのパフォーマンスを改善した。最高性能のシステムは25.8%の対等なエラー率で大幅な改善を達成したが、これはまだ最先端の成人話者認証システムのパフォーマンスには程遠い。したがって、このデータセットにはさらなる研究の余地があり、検証タスクを超えて拡張される可能性がある。

関連論文リスト

Who is a Better Talker: Subjective and Objective Quality Assessment for AI-Generated Talking Heads [53.012111671763776]
肖像画の音声駆動方式は、話し言葉の形や顔の動きを合成する能力から、比喩的に「Talkers」として知られている。テキスト・トゥ・イメージ・モデル(T2I)の急速な発展に伴い、AI生成トーキングヘッド(AGTH)は徐々に新しいデジタルヒューマンメディアになりつつある。本稿では,現在までに最大規模のAGTH品質評価データセットTHQA-10Kについて述べる。12のT2Iモデルと14の高度な話者を選択し,14のプロンプトでAGTHを生成する。
論文参考訳（メタデータ） (2025-07-31T08:43:21Z)
The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition [95.95622220065884]
MISP 2025 Challengeは、ビデオモダリティをオーディオと組み合わせることで、マルチモーダル、マルチデバイスミーティングの書き起こしに焦点を当てている。最高の性能のシステムはベースラインよりも大幅に改善された。
論文参考訳（メタデータ） (2025-05-20T06:11:51Z)
Infant Cry Detection Using Causal Temporal Representation [6.240468701036028]
本研究は乳児の涙の診断に2つの貢献をおこなった。ひとつはCryセグメンテーションのための注釈付きデータセットで、教師付きモデルで最先端のパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2025-03-08T15:15:23Z)
Towards the Synthesis of Non-speech Vocalizations [1.5039745292757674]
DiffWave フレームワークを用いて,幼児の泣き声を無条件に生成することに焦点を当てた。 Baby ChillantoとDeBarbaro cryデータセットの2つの異なるデータセットを使用します。これらのデータセットは、DiffWaveモデルをトレーニングして、高い忠実度と多様性を維持する新しい泣き音を生成するために使用される。
論文参考訳（メタデータ） (2024-10-12T04:00:56Z)
Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults [4.765434968114876]
我々は、より効率的なデータ前処理により、MySTデータセットの有用性を高める。この改善は、目に見えないデータセットに一般化できることを示す。その結果,Whisperの有効かつ効率的な統合が,効果的な子どもの音声認識に有効であることが示された。
論文参考訳（メタデータ） (2023-09-12T06:58:18Z)
Detection of Children Abuse by Voice and Audio Classification by Short-Time Fourier Transform Machine Learning implemented on Nvidia Edge GPU device [0.0]
この実験は、機械学習を使って子供の声を分類し、認識する。子供が泣き叫んだり叫んだりすると、直ちに関連する職員に警告が送られる。
論文参考訳（メタデータ） (2023-07-27T16:48:19Z)
VoxSRC 2022: The Fourth VoxCeleb Speaker Recognition Challenge [95.6159736804855]
VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22)は、InterSPEECH 2022と共同で開催された。この課題の目的は、最先端の話者認識システムが「野生」で得られた音声から話者を識別し、分類し、認識できるかどうかを評価することである。
論文参考訳（メタデータ） (2023-02-20T19:27:14Z)
Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文参考訳（メタデータ） (2022-01-15T13:02:40Z)
ARCA23K: An audio dataset for investigating open-set label noise [48.683197172795865]
本稿では、23,000以上のラベル付きFreesoundクリップからなる自動検索およびキュレートされたオーディオデータセットであるARCA23Kを紹介する。本稿では,ARCA23Kのラベリング誤りの大部分は語彙外音声クリップによるものであり,このタイプのラベリングノイズをオープンセットラベルノイズと呼ぶ。
論文参考訳（メタデータ） (2021-09-19T21:10:25Z)
Infant Vocal Tract Development Analysis and Diagnosis by Cry Signals with CNN Age Classification [3.205396037615997]
本稿では,畳み込みニューラルネットワーク(CNN)による年齢分類による乳児の涙信号の非侵襲的利用法を提案する。方法の精度は, 健常者では79.20%, 窒息者では84.80%, 難聴者では91.20%である。
論文参考訳（メタデータ） (2021-04-23T03:09:16Z)
Senone-aware Adversarial Multi-task Training for Unsupervised Child to Adult Speech Adaptation [26.065719754453823]
本研究では,成人音声と幼児音声のセノンレベルにおける音響ミスマッチを最小限に抑える特徴適応手法を提案する。提案手法は, 児童音声認識, 児童発音評価, 児童流動度スコア予測の3つのタスクで検証した。
論文参考訳（メタデータ） (2021-02-23T04:49:27Z)
Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。本稿では,WUW検出に適応した音声強調モデルを提案する。これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文参考訳（メタデータ） (2021-01-29T18:44:05Z)
VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge [99.82500204110015]
第2回「VoxCeleb Speaker Recognition Challenge」をInterspeech 2020と共に開催しました。この課題の目的は、現在のスピーカー認識技術が、制約のないデータまたは野生のデータでスピーカーをダイアライズして認識できるかどうかを評価することでした。本稿では,その課題を概説し,ベースライン,使用方法,結果について述べる。
論文参考訳（メタデータ） (2020-12-12T17:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。