論文の概要: Efficient and Fast Generative-Based Singing Voice Separation using a Latent Diffusion Model
- arxiv url: http://arxiv.org/abs/2511.20470v1
- Date: Tue, 25 Nov 2025 16:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.553128
- Title: Efficient and Fast Generative-Based Singing Voice Separation using a Latent Diffusion Model
- Title(参考訳): 潜時拡散モデルを用いた高効率かつ高速な歌声分離
- Authors: Genís Plaja-Roglans, Yun-Ning Hung, Xavier Serra, Igor Pereira,
- Abstract要約: 本研究では, このギャップを埋めるための拡散モデルの可能性について検討する。
本研究は,声帯と混合音の対に依存する歌唱音声の分離に焦点をあてる。
システムは、コンパクトなラテント空間に符号化されたサンプルを生成し、その後、それらをオーディオに復号する。
- 参考スコア(独自算出の注目度): 12.393086516044866
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Extracting individual elements from music mixtures is a valuable tool for music production and practice. While neural networks optimized to mask or transform mixture spectrograms into the individual source(s) have been the leading approach, the source overlap and correlation in music signals poses an inherent challenge. Also, accessing all sources in the mixture is crucial to train these systems, while complicated. Attempts to address these challenges in a generative fashion exist, however, the separation performance and inference efficiency remain limited. In this work, we study the potential of diffusion models to advance toward bridging this gap, focusing on generative singing voice separation relying only on corresponding pairs of isolated vocals and mixtures for training. To align with creative workflows, we leverage latent diffusion: the system generates samples encoded in a compact latent space, and subsequently decodes these into audio. This enables efficient optimization and faster inference. Our system is trained using only open data. We outperform existing generative separation systems, and level the compared non-generative systems on a list of signal quality measures and on interference removal. We provide a noise robustness study on the latent encoder, providing insights on its potential for the task. We release a modular toolkit for further research on the topic.
- Abstract(参考訳): 音楽のミックスから個々の要素を抽出することは、音楽の制作と実践にとって貴重なツールである。
個々の音源に混合スペクトルをマスクまたは変換するために最適化されたニューラルネットワークが主要なアプローチであるが、音源の重なり合いと音楽信号の相関は固有の課題である。
また、混在しているすべてのソースにアクセスすることは、これらのシステムのトレーニングには不可欠だが、複雑である。
生成的な方法でこれらの課題に対処しようとする試みは存在するが、分離性能と推論効率は依然として限られている。
本研究では,このギャップを埋めるための拡散モデルの可能性について検討し,歌声の分離生成に焦点をあてた。
システムは、コンパクトな潜在空間に符号化されたサンプルを生成し、その後、それらをオーディオに復号する。
これにより、効率的な最適化と高速な推論が可能になる。
我々のシステムはオープンデータのみを用いて訓練されている。
我々は、既存の生成的分離システムより優れており、比較された非生成系を信号品質尺度と干渉除去基準のリストでレベル付けしている。
本稿では,潜在エンコーダの雑音頑健性について検討し,その可能性について考察する。
このトピックについてさらに研究するためのモジュラーツールキットをリリースします。
関連論文リスト
- High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - DGMO: Training-Free Audio Source Separation through Diffusion-Guided Mask Optimization [6.6567375919025995]
言語クエリされたオーディオソース分離(LASS)は、自然言語クエリによるオープン語彙の分離を可能にする。
ゼロショットLASSにおける生成前処理を利用した学習自由フレームワークを提案する。
提案手法は,ソース分離のための事前学習拡散モデルを効果的に再利用し,タスク固有の監督なしに競争性能を達成する。
論文 参考訳(メタデータ) (2025-06-03T13:24:57Z) - Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。
複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。
実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-24T17:58:21Z) - Bass Accompaniment Generation via Latent Diffusion [0.0]
任意の長さのミキシングに付随する単一茎を生成する制御可能なシステムを提案する。
本手法のコアとなるのは、音声波形サンプルを効率よく非可逆な潜在表現に圧縮するオーディオオートエンコーダである。
制御可能な条件付きオーディオ生成フレームワークは、音楽制作においてミュージシャンを支援するための生成AIツールを作成する上で、大きな前進となる。
論文 参考訳(メタデータ) (2024-02-02T13:44:47Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。