論文の概要: Automatic Lyrics Transcription using Dilated Convolutional Neural
Networks with Self-Attention
- arxiv url: http://arxiv.org/abs/2007.06486v2
- Date: Fri, 24 Jul 2020 15:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 23:33:44.591327
- Title: Automatic Lyrics Transcription using Dilated Convolutional Neural
Networks with Self-Attention
- Title(参考訳): 自己注意型拡張畳み込みニューラルネットワークによる歌詞の自動転写
- Authors: Emir Demirel, Sven Ahlback, Simon Dixon
- Abstract要約: モノフォニックカラオケ記録における自己注意による畳み込み時間遅延ニューラルネットワークの訓練を行った。
本システムでは,歌詞の自動書き起こしにおける最先端の大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 11.232541198648159
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech recognition is a well developed research field so that the current
state of the art systems are being used in many applications in the software
industry, yet as by today, there still does not exist such robust system for
the recognition of words and sentences from singing voice. This paper proposes
a complete pipeline for this task which may commonly be referred as automatic
lyrics transcription (ALT). We have trained convolutional time-delay neural
networks with self-attention on monophonic karaoke recordings using a sequence
classification objective for building the acoustic model. The dataset used in
this study, DAMP - Sing! 300x30x2 [1] is filtered to have songs with only
English lyrics. Different language models are tested including MaxEnt and
Recurrent Neural Networks based methods which are trained on the lyrics of pop
songs in English. An in-depth analysis of the self-attention mechanism is held
while tuning its context width and the number of attention heads. Using the
best settings, our system achieves notable improvement to the state-of-the-art
in ALT and provides a new baseline for the task.
- Abstract(参考訳): 音声認識は先進的な研究分野であり、ソフトウェア産業において現在の技術システムが多くの応用に使われているが、今日まで、歌声から単語や文を認識するための強固なシステムは存在していない。
本稿では,このタスクの完全なパイプラインを提案し,これをALT(Automatic lyrics transcription)と呼ぶ。
我々は,音響モデル構築のためのシーケンス分類手法を用いて,自己注意型畳み込み時間遅延ニューラルネットワークをモノフォニックカラオケ録音に訓練した。
この研究で使用されたデータセット、DAMP - Sing!
300x30x2[1]は、英語のみの歌詞を持つようにフィルタリングされる。
英語のポップソングの歌詞に基づいて訓練されたMaxEntやRecurrent Neural Networksなど、さまざまな言語モデルがテストされている。
コンテキスト幅とアテンションヘッドの数を調整しながら、自己注意機構の奥行き分析を行う。
最適設定を用いて,ALTにおける最先端技術の改善を実現し,タスクの新たなベースラインを提供する。
関連論文リスト
- Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - DeepFry: Identifying Vocal Fry Using Deep Neural Networks [16.489251286870704]
声質フライ(Vocal fry)は、不規則な声門の開口と低ピッチを特徴とする声質を指す。
不規則な周期性のため、難解な音声は自動音声認識システムに挑戦する。
本稿では,流速音声における難解な音声を検出するためのディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:23:24Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - Youling: an AI-Assisted Lyrics Creation System [72.00418962906083]
本稿では,AIによる歌詞作成システムである textitYouling について紹介する。
歌詞生成プロセスでは、textitYoulingは従来の1パスのフルテキスト生成モードとインタラクティブな生成モードをサポートする。
システムは、ユーザーが望まない文や歌詞の言葉を繰り返し修正できるリビジョンモジュールも提供する。
論文 参考訳(メタデータ) (2022-01-18T03:57:04Z) - MSTRE-Net: Multistreaming Acoustic Modeling for Automatic Lyrics
Transcription [8.669338893753885]
本稿では,自動翻訳(ALT)研究にいくつかの貢献を行う。
我々の主な貢献はMSTRE-Netと呼ばれるMultistreaming Time-Delay Neural Network (MTDNN)アーキテクチャの新しい変種である。
本稿では,ALTで使用されている既存のデータセットと比較して,かなり大きなサイズと高い音楽的変動性を持つ新しいテストセットを提案する。
論文 参考訳(メタデータ) (2021-08-05T13:59:11Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。