論文の概要: Audiovisual Singing Voice Separation
- arxiv url: http://arxiv.org/abs/2107.00231v1
- Date: Thu, 1 Jul 2021 06:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-03 00:03:47.593315
- Title: Audiovisual Singing Voice Separation
- Title(参考訳): 音声による歌声分離
- Authors: Bochen Li, Yuxuan Wang, and Zhiyao Duan
- Abstract要約: ビデオモデルは口の動きを入力し、それをオーディオベースの分離フレームワークの機能埋め込みに融合する。
トレーニングと評価のための2つのオーディオヴィジュアルな歌唱パフォーマンスデータセットを作成します。
提案手法は、ほとんどのテスト記録における分離品質の観点から、音声ベースの手法よりも優れる。
- 参考スコア(独自算出の注目度): 25.862550744570324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Separating a song into vocal and accompaniment components is an active
research topic, and recent years witnessed an increased performance from
supervised training using deep learning techniques. We propose to apply the
visual information corresponding to the singers' vocal activities to further
improve the quality of the separated vocal signals. The video frontend model
takes the input of mouth movement and fuses it into the feature embeddings of
an audio-based separation framework. To facilitate the network to learn
audiovisual correlation of singing activities, we add extra vocal signals
irrelevant to the mouth movement to the audio mixture during training. We
create two audiovisual singing performance datasets for training and
evaluation, respectively, one curated from audition recordings on the Internet,
and the other recorded in house. The proposed method outperforms audio-based
methods in terms of separation quality on most test recordings. This advantage
is especially pronounced when there are backing vocals in the accompaniment,
which poses a great challenge for audio-only methods.
- Abstract(参考訳): 歌を声と伴奏の要素に分離することは活発な研究課題であり、近年は深層学習技術を用いた教師あり訓練によるパフォーマンス向上が観察されている。
そこで本研究では,歌唱者の発声活動に対応する視覚情報を適用し,分離した発声信号の質をさらに向上させる。
ビデオフロントエンドモデルは口の動きを入力し、それをオーディオベースの分離フレームワークの機能埋め込みに融合する。
ネットワークが歌唱活動の音声視覚的相関を学習できるようにするため,訓練中に口の動きに関係のない余分な音声信号を加える。
学習と評価のために,インターネット上のオーディション録音をキュレートした2つの視聴覚歌唱パフォーマンスデータセットを作成し,もう1つは室内で記録した。
提案手法は,ほとんどの試験記録における分離品質において,音声ベースの手法を上回っている。
この利点は、伴奏にバックボーカルがあるときに特に顕著であり、これは音声のみの手法では大きな課題となる。
関連論文リスト
- Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer [4.167459103689587]
本稿では,音声分離のための音声-視覚的アプローチを提案する。
音声と歌声の2つのシナリオにおいて、最先端の手法を低レイテンシで上回る。
論文 参考訳(メタデータ) (2022-03-08T14:08:47Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - A cappella: Audio-visual Singing Voice Separation [4.6453787256723365]
マルチモーダルの観点からシングルチャンネル歌唱音声分離問題について検討する。
今回紹介するAcappellaは、YouTubeからソースされたカペラソロの歌唱ビデオの46時間に及ぶデータセットだ。
本稿では,最先端の歌唱音声分離結果を実現する音声視覚畳み込みニューラルネットワークY-Netを提案する。
論文 参考訳(メタデータ) (2021-04-20T13:17:06Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。