論文の概要: JukeBox: A Multilingual Singer Recognition Dataset
- arxiv url: http://arxiv.org/abs/2008.03507v1
- Date: Sat, 8 Aug 2020 12:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 12:33:34.689777
- Title: JukeBox: A Multilingual Singer Recognition Dataset
- Title(参考訳): jukebox: 多言語シンガー認識データセット
- Authors: Anurag Chowdhury, Austin Cozzo, Arun Ross
- Abstract要約: textitJukeBoxは、歌手のアイデンティティ、性別、言語ラベルを付加した多言語歌声音声付き話者認識データセットである。
音声のみを訓練したモデルを用いて歌唱音声における話者認識の難しさを示すために,現在最先端の手法を用いている。
- 参考スコア(独自算出の注目度): 17.33151600403503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A text-independent speaker recognition system relies on successfully encoding
speech factors such as vocal pitch, intensity, and timbre to achieve good
performance. A majority of such systems are trained and evaluated using spoken
voice or everyday conversational voice data. Spoken voice, however, exhibits a
limited range of possible speaker dynamics, thus constraining the utility of
the derived speaker recognition models. Singing voice, on the other hand,
covers a broader range of vocal and ambient factors and can, therefore, be used
to evaluate the robustness of a speaker recognition system. However, a majority
of existing speaker recognition datasets only focus on the spoken voice. In
comparison, there is a significant shortage of labeled singing voice data
suitable for speaker recognition research. To address this issue, we assemble
\textit{JukeBox} - a speaker recognition dataset with multilingual singing
voice audio annotated with singer identity, gender, and language labels. We use
the current state-of-the-art methods to demonstrate the difficulty of
performing speaker recognition on singing voice using models trained on spoken
voice alone. We also evaluate the effect of gender and language on speaker
recognition performance, both in spoken and singing voice data. The complete
\textit{JukeBox} dataset can be accessed at
http://iprobe.cse.msu.edu/datasets/jukebox.html.
- Abstract(参考訳): テキストに依存しない話者認識システムは、音声ピッチ、強度、音色などの音声要素をうまくエンコードし、良好な性能を達成する。
これらのシステムの大部分は、音声データや日常会話音声データを用いて訓練され、評価される。
しかし、発声音声は話者ダイナミクスの限られた範囲を示すため、導出話者認識モデルの有用性が制限される。
一方、歌声は、声質や環境要因の広い範囲をカバーするため、話者認識システムのロバスト性を評価するために使用できる。
しかし、既存の話者認識データセットの大部分は、音声のみに焦点を当てている。
対照的に、話者認識研究に適したラベル付き歌唱音声データが著しく不足している。
この問題に対処するために,歌手のアイデンティティ,性別,言語ラベルを付加した多言語歌声音声を用いた話者認識データセットであるtextit{JukeBox} を組み立てた。
本研究では,音声のみを訓練したモデルを用いて,歌唱音声における話者認識の難易度を示す。
また、音声データと歌唱音声データの両方において、性別と言語が話者認識性能に与える影響を評価する。
完全な \textit{jukebox}データセットはhttp://iprobe.cse.msu.edu/datasets/jukebox.htmlでアクセスできる。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition [13.373579620368046]
VocalSoundのデータセットは、21,000件以上のクラウドソースによる笑い声、うさぎ声、うなり声、喉のクリアリング、くしゃみ、嗅ぎ声の録音で構成されています。
実験の結果,既存のデータセットにVocalSoundデータセットを追加することで,モデルの音声認識性能を41.9%向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-05-06T18:08:18Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - VoiceCoach: Interactive Evidence-based Training for Voice Modulation
Skills in Public Speaking [55.366941476863644]
ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。
音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。
論文 参考訳(メタデータ) (2020-01-22T04:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。