論文の概要: Facing the Music: Tackling Singing Voice Separation in Cinematic Audio Source Separation
- arxiv url: http://arxiv.org/abs/2408.03588v1
- Date: Wed, 7 Aug 2024 07:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:43:46.283318
- Title: Facing the Music: Tackling Singing Voice Separation in Cinematic Audio Source Separation
- Title(参考訳): Facing the Music: 映像音源分離における歌声分離処理
- Authors: Karn N. Watcharasupat, Chih-Wei Wu, Iroro Orife,
- Abstract要約: シネマティックオーディオソース分離(CASS)は、かなり新しいオーディオソース分離のサブタスクである。
CASSの典型的なセットアップは3段階の問題であり、混合物を対話幹(DX)、音楽幹(MX)、エフェクト幹(FX)に分離することを目的としている。
しかし、実際にはこれら3つの幹に適合しない音源があるため、いくつかのエッジケースが存在する。
非常に一般的なエッジケースの1つは、映画音声における歌声であり、DXまたはMXに属する可能性がある。
- 参考スコア(独自算出の注目度): 5.926447149127937
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cinematic audio source separation (CASS) is a fairly new subtask of audio source separation. A typical setup of CASS is a three-stem problem, with the aim of separating the mixture into the dialogue stem (DX), music stem (MX), and effects stem (FX). In practice, however, several edge cases exist as some sound sources do not fit neatly in either of these three stems, necessitating the use of additional auxiliary stems in production. One very common edge case is the singing voice in film audio, which may belong in either the DX or MX, depending heavily on the cinematic context. In this work, we demonstrate a very straightforward extension of the dedicated-decoder Bandit and query-based single-decoder Banquet models to a four-stem problem, treating non-musical dialogue, instrumental music, singing voice, and effects as separate stems. Interestingly, the query-based Banquet model outperformed the dedicated-decoder Bandit model. We hypothesized that this is due to a better feature alignment at the bottleneck as enforced by the band-agnostic FiLM layer. Dataset and model implementation will be made available at https://github.com/kwatcharasupat/source-separation-landing.
- Abstract(参考訳): シネマティックオーディオソース分離(CASS)は、かなり新しいオーディオソース分離のサブタスクである。
CASSの典型的なセットアップは3段階の問題であり、混合物を対話幹(DX)、音楽幹(MX)、エフェクト茎(FX)に分離することを目的としている。
しかし、実際にはこれらの3つの幹のどちらにも適さない音源がいくつか存在するため、追加の補助茎を生産に使用する必要がある。
非常に一般的なエッジケースの1つは、映画音声における歌声であり、DXまたはMXに属する可能性がある。
本研究では,専用デコーダBanditとクエリベースの単一デコーダBanquetモデルを4段階問題に拡張し,非音楽対話,楽器音楽,歌唱音声,エフェクトを別々のステムとして扱う。
興味深いことに、クエリベースのBanquetモデルは、専用デコーダのBanditモデルよりも優れていた。
これは、バンド非依存のFiLM層が実施するボトルネックにおいて、より優れた機能アライメントが原因である、という仮説を立てた。
Datasetとモデルの実装はhttps://github.com/kwatcharasupat/source-separation-landing.comで公開される。
関連論文リスト
- A Stem-Agnostic Single-Decoder System for Music Source Separation Beyond Four Stems [53.30852012059025]
Banquetは1つのデコーダを使って複数の幹のソース分離を可能にするシステムである。
バンドスプリットソース分離モデルは、楽器認識PaSSTモデルと共にタンデムでクエリベースのセットアップで動作するように拡張される。
論文 参考訳(メタデータ) (2024-06-26T20:25:53Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - A Generalized Bandsplit Neural Network for Cinematic Audio Source
Separation [39.45425155123186]
周波数軸の完全あるいは過剰な分割に対してBandsplit RNNを一般化するモデルを開発する。
信号-雑音比と1-ノルムの空間的プロモーティング特性によって動機付けられた損失関数を提案した。
我々の最良のモデルは、対話幹の理想比マスクよりも高い性能で、Divide and Remasterデータセット上のアートの状態を設定します。
論文 参考訳(メタデータ) (2023-09-05T19:19:22Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。
分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。
AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Task 1A DCASE 2021: Acoustic Scene Classification with mismatch-devices
using squeeze-excitation technique and low-complexity constraint [4.4973334555746]
音響シーン分類(ASC)は、機械聴取の分野で最も一般的な問題の一つである。
本報告のサブタスクは、モデルの複雑さによって制約されるASC問題に対応する。
具体的には,ガマモントンフィルタバンクを用いた音声の二次元表現と畳み込みニューラルネットワークという2つのステップに基づくシステムを提案する。
論文 参考訳(メタデータ) (2021-07-30T14:24:45Z) - A cappella: Audio-visual Singing Voice Separation [4.6453787256723365]
マルチモーダルの観点からシングルチャンネル歌唱音声分離問題について検討する。
今回紹介するAcappellaは、YouTubeからソースされたカペラソロの歌唱ビデオの46時間に及ぶデータセットだ。
本稿では,最先端の歌唱音声分離結果を実現する音声視覚畳み込みニューラルネットワークY-Netを提案する。
論文 参考訳(メタデータ) (2021-04-20T13:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。