論文の概要: Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition
- arxiv url: http://arxiv.org/abs/2205.03433v1
- Date: Fri, 6 May 2022 18:08:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-15 14:31:09.872057
- Title: Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition
- Title(参考訳): Vocalsound:人間の声道音声認識を改善するデータセット
- Authors: Yuan Gong, Jin Yu, James Glass
- Abstract要約: VocalSoundのデータセットは、21,000件以上のクラウドソースによる笑い声、うさぎ声、うなり声、喉のクリアリング、くしゃみ、嗅ぎ声の録音で構成されています。
実験の結果,既存のデータセットにVocalSoundデータセットを追加することで,モデルの音声認識性能を41.9%向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 13.373579620368046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing human non-speech vocalizations is an important task and has broad
applications such as automatic sound transcription and health condition
monitoring. However, existing datasets have a relatively small number of vocal
sound samples or noisy labels. As a consequence, state-of-the-art audio event
classification models may not perform well in detecting human vocal sounds. To
support research on building robust and accurate vocal sound recognition, we
have created a VocalSound dataset consisting of over 21,000 crowdsourced
recordings of laughter, sighs, coughs, throat clearing, sneezes, and sniffs
from 3,365 unique subjects. Experiments show that the vocal sound recognition
performance of a model can be significantly improved by 41.9% by adding
VocalSound dataset to an existing dataset as training material. In addition,
different from previous datasets, the VocalSound dataset contains meta
information such as speaker age, gender, native language, country, and health
condition.
- Abstract(参考訳): 人間の非音声音声認識は重要な課題であり、音声の自動書き起こしや健康状態のモニタリングといった幅広い応用がある。
しかし、既存のデータセットは比較的少数の音声サンプルやうるさいラベルを持っている。
その結果、最先端の音声イベント分類モデルは、人間の発声音を検出するのにうまく機能しない可能性がある。
そこで我々は,3,365名の独特な被験者の笑い,おびただしい声,喉の清浄,くしゃみ,嗅覚をクラウドソースで記録した21,000以上の音声データセットを作成した。
実験の結果,既存のデータセットにVocalSoundデータセットを追加することで,モデルの音声認識性能を41.9%向上させることができることがわかった。
さらに、これまでのデータセットとは異なり、 vocalsoundデータセットには、話者年齢、性別、母国語、国、健康状態などのメタ情報が含まれている。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - A dataset for Audio-Visual Sound Event Detection in Movies [33.59510253345295]
サブタイトルアラインド・ムービー・サウンド(SAM-S)と呼ばれる音声イベントのデータセットを提示する。
430本の映画から110K以上のオーディオイベントを自動的にマイニングするために、公開可能なクローズド・キャプション・トランスクリプトを使用します。
音声イベントを分類するためには,音,ソース,品質の3つの次元を識別し,245音の最終分類法を作成するためのステップを提示する。
論文 参考訳(メタデータ) (2023-02-14T19:55:39Z) - EmoGator: A New Open Source Vocal Burst Dataset with Baseline Machine
Learning Classification Methodologies [0.0]
EmoGatorデータセットは、357人の話者から32,130のサンプルと16.9654時間のオーディオで構成されている。
各サンプルは、話者によって30の異なる感情カテゴリーの1つに分類された。
論文 参考訳(メタデータ) (2023-01-02T03:02:10Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - JukeBox: A Multilingual Singer Recognition Dataset [17.33151600403503]
textitJukeBoxは、歌手のアイデンティティ、性別、言語ラベルを付加した多言語歌声音声付き話者認識データセットである。
音声のみを訓練したモデルを用いて歌唱音声における話者認識の難しさを示すために,現在最先端の手法を用いている。
論文 参考訳(メタデータ) (2020-08-08T12:22:51Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。