論文の概要: Facing the Music: Tackling Singing Voice Separation in Cinematic Audio Source Separation
- arxiv url: http://arxiv.org/abs/2408.03588v2
- Date: Mon, 26 Aug 2024 00:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 20:40:24.189401
- Title: Facing the Music: Tackling Singing Voice Separation in Cinematic Audio Source Separation
- Title(参考訳): Facing the Music: 映像音源分離における歌声分離処理
- Authors: Karn N. Watcharasupat, Chih-Wei Wu, Iroro Orife,
- Abstract要約: シネマティックオーディオソース分離は、オーディオソース分離の新しいサブタスクである。
CASSの典型的なセットアップは3段階の問題であり、混合物を対話(DX)、音楽(MX)、エフェクト(FX)に分離することを目的としている。
専用デコーダBanditとクエリベースの単一デコーダBanquetモデルの4段階問題への非常に簡単な拡張を実演する。
- 参考スコア(独自算出の注目度): 5.926447149127937
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cinematic audio source separation (CASS), as a standalone problem of extracting individual stems from their mixture, is a fairly new subtask of audio source separation. A typical setup of CASS is a three-stem problem, with the aim of separating the mixture into the dialogue (DX), music (MX), and effects (FX) stems. Given the creative nature of cinematic sound production, however, several edge cases exist; some sound sources do not fit neatly in any of these three stems, necessitating the use of additional auxiliary stems in production. One very common edge case is the singing voice in film audio, which may belong in either the DX or MX or neither, depending heavily on the cinematic context. In this work, we demonstrate a very straightforward extension of the dedicated-decoder Bandit and query-based single-decoder Banquet models to a four-stem problem, treating non-musical dialogue, instrumental music, singing voice, and effects as separate stems. Interestingly, the query-based Banquet model outperformed the dedicated-decoder Bandit model. We hypothesized that this is due to a better feature alignment at the bottleneck as enforced by the band-agnostic FiLM layer. Dataset and model implementation will be made available at https://github.com/kwatcharasupat/source-separation-landing.
- Abstract(参考訳): シネマティックオーディオソース分離(CASS、Cinematic Audio Source separation)は、個々の幹細胞をその混合物から抽出する独立した問題であり、オーディオソース分離のかなり新しいサブタスクである。
CASSの典型的なセットアップは3段階の問題であり、混合物を対話(DX)、音楽(MX)、エフェクト(FX)に分離することを目的としている。
しかし、映画のサウンドプロダクションの創造性を考えると、いくつかのエッジケースがあり、これらの3つのステムのいずれかに適切に適合しない音源があるため、追加の補助ステムを生産に使用する必要がある。
映画音声における歌声は、DXまたはMXのいずれにも属さないが、映画的文脈によって大きく異なる。
本研究では,専用デコーダBanditとクエリベースの単一デコーダBanquetモデルを4段階問題に拡張し,非音楽対話,楽器音楽,歌唱音声,エフェクトを別々のステムとして扱う。
興味深いことに、クエリベースのBanquetモデルは、専用デコーダのBanditモデルよりも優れていた。
これは、バンド非依存のFiLM層が実施するボトルネックにおいて、より優れた機能アライメントが原因である、という仮説を立てた。
Datasetとモデルの実装はhttps://github.com/kwatcharasupat/source-separation-landing.comで公開される。
関連論文リスト
- A Stem-Agnostic Single-Decoder System for Music Source Separation Beyond Four Stems [53.30852012059025]
Banquetは1つのデコーダを使って複数の幹のソース分離を可能にするシステムである。
バンドスプリットソース分離モデルは、楽器認識PaSSTモデルと共にタンデムでクエリベースのセットアップで動作するように拡張される。
論文 参考訳(メタデータ) (2024-06-26T20:25:53Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - A Generalized Bandsplit Neural Network for Cinematic Audio Source
Separation [39.45425155123186]
周波数軸の完全あるいは過剰な分割に対してBandsplit RNNを一般化するモデルを開発する。
信号-雑音比と1-ノルムの空間的プロモーティング特性によって動機付けられた損失関数を提案した。
我々の最良のモデルは、対話幹の理想比マスクよりも高い性能で、Divide and Remasterデータセット上のアートの状態を設定します。
論文 参考訳(メタデータ) (2023-09-05T19:19:22Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。
分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。
AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Task 1A DCASE 2021: Acoustic Scene Classification with mismatch-devices
using squeeze-excitation technique and low-complexity constraint [4.4973334555746]
音響シーン分類(ASC)は、機械聴取の分野で最も一般的な問題の一つである。
本報告のサブタスクは、モデルの複雑さによって制約されるASC問題に対応する。
具体的には,ガマモントンフィルタバンクを用いた音声の二次元表現と畳み込みニューラルネットワークという2つのステップに基づくシステムを提案する。
論文 参考訳(メタデータ) (2021-07-30T14:24:45Z) - A cappella: Audio-visual Singing Voice Separation [4.6453787256723365]
マルチモーダルの観点からシングルチャンネル歌唱音声分離問題について検討する。
今回紹介するAcappellaは、YouTubeからソースされたカペラソロの歌唱ビデオの46時間に及ぶデータセットだ。
本稿では,最先端の歌唱音声分離結果を実現する音声視覚畳み込みニューラルネットワークY-Netを提案する。
論文 参考訳(メタデータ) (2021-04-20T13:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。