論文の概要: Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data
- arxiv url: http://arxiv.org/abs/2112.07891v1
- Date: Wed, 15 Dec 2021 05:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 00:39:38.500774
- Title: Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data
- Title(参考訳): 弱ラベルデータからの問合せ学習によるゼロショット音源分離
- Authors: Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-kirkpatrick,
Shlomo Dubnov
- Abstract要約: 本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
- 参考スコア(独自算出の注目度): 26.058278155958668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning techniques for separating audio into different sound sources
face several challenges. Standard architectures require training separate
models for different types of audio sources. Although some universal separators
employ a single model to target multiple sources, they have difficulty
generalizing to unseen sources. In this paper, we propose a three-component
pipeline to train a universal audio source separator from a large, but
weakly-labeled dataset: AudioSet. First, we propose a transformer-based sound
event detection system for processing weakly-labeled training data. Second, we
devise a query-based audio separation model that leverages this data for model
training. Third, we design a latent embedding processor to encode queries that
specify audio targets for separation, allowing for zero-shot generalization.
Our approach uses a single model for source separation of multiple sound types,
and relies solely on weakly-labeled data for training. In addition, the
proposed audio separator can be used in a zero-shot setting, learning to
separate types of audio sources that were never seen in training. To evaluate
the separation performance, we test our model on MUSDB18, while training on the
disjoint AudioSet. We further verify the zero-shot performance by conducting
another experiment on audio source types that are held-out from training. The
model achieves comparable Source-to-Distortion Ratio (SDR) performance to
current supervised models in both cases.
- Abstract(参考訳): 音源を異なる音源に分離する深層学習技術はいくつかの課題に直面している。
標準アーキテクチャでは、異なるタイプのオーディオソースに対して別々のモデルをトレーニングする必要がある。
一部のユニバーサルセパレータは、複数のソースを対象とする単一のモデルを採用しているが、見えないソースへの一般化は困難である。
本稿では,汎用オーディオソースセパレータを,大きくて弱いラベルのデータセットであるaudiosetからトレーニングするための3成分パイプラインを提案する。
まず,弱ラベル学習データを処理するためのトランスベース音響イベント検出システムを提案する。
第2に,モデルトレーニングにこのデータを活用するクエリベースの音声分離モデルを考案する。
第3に,分離のための音声ターゲットを指定するクエリをエンコードする潜在組み込みプロセッサを設計し,ゼロショット一般化を可能にした。
提案手法では,複数の音源の分離に単一モデルを用い,学習のための弱ラベルデータのみに依存する。
さらに、提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
分離性能を評価するため,不随意オーディオセットのトレーニング中,MUSDB18上でモデルを検証した。
さらに、トレーニングから遠ざかる音源タイプについて、別の実験を行うことで、ゼロショット性能を検証する。
このモデルは、両方のケースで現在の教師付きモデルに匹敵するソース・ツー・ディストーション比(SDR)性能を達成する。
関連論文リスト
- Universal Sound Separation with Self-Supervised Audio Masked Autoencoder [35.560261097213846]
本稿では,音声マスク付きオートエンコーダ(A-MAE)を汎用的な音声分離システムに統合する自己教師付き事前学習モデルを提案する。
提案手法は,最先端のResUNetベースUSSモデルの分離性能の向上に成功している。
論文 参考訳(メタデータ) (2024-07-16T14:11:44Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Unsupervised Audio Source Separation Using Differentiable Parametric
Source Models [8.80867379881193]
本研究では,教師なしモデルに基づく深層学習手法を提案する。
ニューラルネットワークは、観測された混合物をソースの和として再構成するように訓練される。
音声アンサンブル分離タスクの実験評価により,提案手法が学習自由法より優れていることが示された。
論文 参考訳(メタデータ) (2022-01-24T11:05:30Z) - Unsupervised Source Separation By Steering Pretrained Music Models [15.847814664948013]
本稿では、音源分離のための音楽生成と音楽タグ付けのために訓練されたディープモデルを再活用する教師なし手法を紹介する。
入力混合物に音声生成モデルを条件付けし、音声生成に用いる音声の潜時符号化を生成する。
この生成されたオーディオは、ソースラベルを生成する事前訓練された音楽タグに供給される。
論文 参考訳(メタデータ) (2021-10-25T16:08:28Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Sampling-Frequency-Independent Audio Source Separation Using Convolution
Layer Based on Impulse Invariant Method [67.24600975813419]
単一深層ニューラルネットワークを用いて任意のサンプリング周波数を処理できる畳み込み層を提案する。
提案層の導入により,従来の音源分離モデルが未知のサンプリング周波数でも一貫して動作できることを示した。
論文 参考訳(メタデータ) (2021-05-10T02:33:42Z) - Leveraging Category Information for Single-Frame Visual Sound Source
Separation [15.26733033527393]
単一のビデオフレームのみを用いて,視覚的音源分離のための簡易かつ効率的なモデルについて検討する。
我々のモデルは分離過程における音源カテゴリの情報を利用することができる。
論文 参考訳(メタデータ) (2020-07-15T20:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。