論文の概要: Voice and accompaniment separation in music using self-attention
convolutional neural network
- arxiv url: http://arxiv.org/abs/2003.08954v1
- Date: Thu, 19 Mar 2020 18:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 03:57:04.376659
- Title: Voice and accompaniment separation in music using self-attention
convolutional neural network
- Title(参考訳): 自己注意畳み込みニューラルネットワークを用いた音楽における声と伴奏の分離
- Authors: Yuzhou Liu (1), Balaji Thoshkahna (2), Ali Milani (3), Trausti
Kristjansson (3) ((1) Ohio State University (2) Amazon Music, Bangalore (3)
Amazon Lab126, CA)
- Abstract要約: 音楽における音声と伴奏を分離する新たな自己注意ネットワークを提案する。
自己注意の中では、同じ音楽パターンの繰り返しは、ソース分離性能を改善するために、他の繰り返しの再構築を知らせる。
その結果,提案手法は声道分離をSDRで19.5%向上させることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music source separation has been a popular topic in signal processing for
decades, not only because of its technical difficulty, but also due to its
importance to many commercial applications, such as automatic karoake and
remixing. In this work, we propose a novel self-attention network to separate
voice and accompaniment in music. First, a convolutional neural network (CNN)
with densely-connected CNN blocks is built as our base network. We then insert
self-attention subnets at different levels of the base CNN to make use of the
long-term intra-dependency of music, i.e., repetition. Within self-attention
subnets, repetitions of the same musical patterns inform reconstruction of
other repetitions, for better source separation performance. Results show the
proposed method leads to 19.5% relative improvement in vocals separation in
terms of SDR. We compare our methods with state-of-the-art systems i.e.
MMDenseNet and MMDenseLSTM.
- Abstract(参考訳): 音楽ソース分離は、その技術的難しさだけでなく、自動キャロアケやリミックスなど、多くの商用アプリケーションでの重要性から、数十年にわたって信号処理において一般的な話題となっている。
本研究では,音楽における音声と伴奏を分離する自己注意ネットワークを提案する。
まず,cnnブロックが密結合した畳み込みニューラルネットワーク(cnn)をベースネットワークとして構築する。
次に、CNNの異なるレベルに自己注意サブネットを挿入し、音楽の長期的相互依存性、すなわち繰り返しを利用する。
自己注意サブネット内の同じパターンの繰り返しは、ソース分離性能を改善するために、他の繰り返しの再構築を通知する。
その結果,提案手法は声道分離をSDRで19.5%向上させることがわかった。
MMDenseNet や MMDenseLSTM といった最先端システムとの比較を行った。
関連論文リスト
- Music Emotion Prediction Using Recurrent Neural Networks [8.867897390286815]
本研究は,聴取者の感情状態に合うように音楽を調整することで,音楽レコメンデーションシステムを強化し,治療介入を支援することを目的とする。
ラッセルの感情クアドラントを用いて、音楽を4つの異なる感情領域に分類し、これらのカテゴリーを正確に予測できるモデルを開発する。
我々のアプローチは、Librosaを使って包括的なオーディオ機能を抽出し、標準RNN、双方向RNN、Long Short-Term Memory(LSTM)ネットワークなど、さまざまなリカレントニューラルネットワークアーキテクチャを適用します。
論文 参考訳(メタデータ) (2024-05-10T18:03:20Z) - Resource-constrained stereo singing voice cancellation [1.0962868591006976]
ステレオ歌唱音声キャンセリングの問題点について検討する。
提案手法は,客観的なオフラインメトリクスと大規模MUSHRA試験を用いて評価する。
論文 参考訳(メタデータ) (2024-01-22T16:05:30Z) - High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。
分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。
AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Spiking Neural Network Decision Feedback Equalization [70.3497683558609]
決定フィードバック等化器(DFE)に似たフィードバック構造を持つSNNベースの等化器を提案する。
提案手法は,3種類の模範チャネルに対して,従来の線形等化器よりも明らかに優れていることを示す。
決定フィードバック構造を持つSNNは、競合エネルギー効率の良いトランシーバへのパスを可能にする。
論文 参考訳(メタデータ) (2022-11-09T09:19:15Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - MSTRE-Net: Multistreaming Acoustic Modeling for Automatic Lyrics
Transcription [8.669338893753885]
本稿では,自動翻訳(ALT)研究にいくつかの貢献を行う。
我々の主な貢献はMSTRE-Netと呼ばれるMultistreaming Time-Delay Neural Network (MTDNN)アーキテクチャの新しい変種である。
本稿では,ALTで使用されている既存のデータセットと比較して,かなり大きなサイズと高い音楽的変動性を持つ新しいテストセットを提案する。
論文 参考訳(メタデータ) (2021-08-05T13:59:11Z) - Content based singing voice source separation via strong conditioning
using aligned phonemes [7.599399338954308]
本稿では,音声情報とともに単語レベルで歌詞を時間順に並べたマルチモーダル・マルチトラック・データセットを提案する。
歌声の音源分離を改善するために,音素条件付けをうまく適用できることを示す。
論文 参考訳(メタデータ) (2020-08-05T12:25:24Z) - Automatic Lyrics Transcription using Dilated Convolutional Neural
Networks with Self-Attention [11.232541198648159]
モノフォニックカラオケ記録における自己注意による畳み込み時間遅延ニューラルネットワークの訓練を行った。
本システムでは,歌詞の自動書き起こしにおける最先端の大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-07-13T16:36:30Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。