論文の概要: A cappella: Audio-visual Singing Voice Separation
- arxiv url: http://arxiv.org/abs/2104.09946v1
- Date: Tue, 20 Apr 2021 13:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:26:19.970533
- Title: A cappella: Audio-visual Singing Voice Separation
- Title(参考訳): アカペラ:音声・視覚的歌声分離
- Authors: Juan F. Montesinos and Venkatesh S. Kadandale and Gloria Haro
- Abstract要約: マルチモーダルの観点からシングルチャンネル歌唱音声分離問題について検討する。
今回紹介するAcappellaは、YouTubeからソースされたカペラソロの歌唱ビデオの46時間に及ぶデータセットだ。
本稿では,最先端の歌唱音声分離結果を実現する音声視覚畳み込みニューラルネットワークY-Netを提案する。
- 参考スコア(独自算出の注目度): 4.6453787256723365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music source separation can be interpreted as the estimation of the
constituent music sources that a music clip is composed of. In this work, we
explore the single-channel singing voice separation problem from a multimodal
perspective, by jointly learning from audio and visual modalities. To do so, we
present Acappella, a dataset spanning around 46 hours of a cappella solo
singing videos sourced from YouTube. We propose Y-Net, an audio-visual
convolutional neural network which achieves state-of-the-art singing voice
separation results on the Acappella dataset and compare it against its
audio-only counterpart, U-Net, and a state-of-the-art audio-visual speech
separation model. Singing voice separation can be particularly challenging when
the audio mixture also comprises of other accompaniment voices and background
sounds along with the target voice of interest. We demonstrate that our model
can outperform the baseline models in the singing voice separation task in such
challenging scenarios. The code, the pre-trained models and the dataset will be
publicly available at https://ipcv.github.io/Acappella/
- Abstract(参考訳): 音源分離は、音楽クリップが構成されている構成音源の推定として解釈することができる。
本研究では,マルチモーダル視点から単一チャンネル歌唱音声分離問題について,音声と視覚のモーダル性から共同学習することで検討する。
そのために、YouTubeからソースされたカペラソロの歌唱ビデオの46時間に及ぶデータセットであるAcappellaを紹介した。
acappellaデータセットで最先端の歌声分離結果を達成し、その音声のみに対応するu-netおよび最先端の音声-視覚音声分離モデルと比較する、音声-視覚畳み込みニューラルネットワークy-netを提案する。
歌声の分離は、他の伴奏音声と背景音とを対象の音声と合わせて含む場合、特に困難である。
我々は,このような困難なシナリオにおいて,歌声分離タスクにおいて,モデルがベースラインモデルを上回ることを実証する。
コード、事前トレーニングされたモデル、データセットはhttps://ipcv.github.io/Acappella/で公開される。
関連論文リスト
- Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Object Segmentation with Audio Context [0.5243460995467893]
本プロジェクトは,ビデオインスタンスセグメンテーションタスクのためのマルチモーダル機能アグリゲーションについて検討する。
ビデオセグメンテーションモデルに音声機能を統合することで、音声視覚学習方式を実現する。
論文 参考訳(メタデータ) (2023-01-04T01:33:42Z) - VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices [4.167459103689587]
人間の顔と声を含むビデオにおける唇声の同期の問題に対処する。
我々のアプローチは、ビデオ中の唇の動きと声が同期しているかどうかを判断することに基づいている。
本稿では,複数のベースラインモデルより優れた音響-視覚間変換器モデルを提案する。
論文 参考訳(メタデータ) (2022-04-05T10:02:39Z) - VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer [4.167459103689587]
本稿では,音声分離のための音声-視覚的アプローチを提案する。
音声と歌声の2つのシナリオにおいて、最先端の手法を低レイテンシで上回る。
論文 参考訳(メタデータ) (2022-03-08T14:08:47Z) - A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。
提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-10-13T07:42:35Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Audiovisual Singing Voice Separation [25.862550744570324]
ビデオモデルは口の動きを入力し、それをオーディオベースの分離フレームワークの機能埋め込みに融合する。
トレーニングと評価のための2つのオーディオヴィジュアルな歌唱パフォーマンスデータセットを作成します。
提案手法は、ほとんどのテスト記録における分離品質の観点から、音声ベースの手法よりも優れる。
論文 参考訳(メタデータ) (2021-07-01T06:04:53Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。