論文の概要: CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos
- arxiv url: http://arxiv.org/abs/2212.07065v1
- Date: Wed, 14 Dec 2022 07:21:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 18:04:56.471268
- Title: CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos
- Title(参考訳): CLIPSep: 騒々しい未収録ビデオによるテキスト検索音声の分離学習
- Authors: Hao-Wen Dong, Naoya Takahashi, Yuki Mitsufuji, Julian McAuley, Taylor
Berg-Kirkpatrick
- Abstract要約: そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
- 参考スコア(独自算出の注目度): 44.14061539284888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen progress beyond domain-specific sound separation for
speech or music towards universal sound separation for arbitrary sounds. Prior
work on universal sound separation has investigated separating a target sound
out of an audio mixture given a text query. Such text-queried sound separation
systems provide a natural and scalable interface for specifying arbitrary
target sounds. However, supervised text-queried sound separation systems
require costly labeled audio-text pairs for training. Moreover, the audio
provided in existing datasets is often recorded in a controlled environment,
causing a considerable generalization gap to noisy audio in the wild. In this
work, we aim to approach text-queried universal sound separation by using only
unlabeled data. We propose to leverage the visual modality as a bridge to learn
the desired audio-textual correspondence. The proposed CLIPSep model first
encodes the input query into a query vector using the contrastive
language-image pretraining (CLIP) model, and the query vector is then used to
condition an audio separation model to separate out the target sound. While the
model is trained on image-audio pairs extracted from unlabeled videos, at test
time we can instead query the model with text inputs in a zero-shot setting,
thanks to the joint language-image embedding learned by the CLIP model.
Further, videos in the wild often contain off-screen sounds and background
noise that may hinder the model from learning the desired audio-textual
correspondence. To address this problem, we further propose an approach called
noise invariant training for training a query-based sound separation model on
noisy data. Experimental results show that the proposed models successfully
learn text-queried universal sound separation using only noisy unlabeled
videos, even achieving competitive performance against a supervised model in
some settings.
- Abstract(参考訳): 近年は、任意の音に対する普遍的な音分離に向けて、言語や音楽のドメイン固有の音分離を超えて進歩している。
ユニバーサルサウンド分離に関する以前の研究は、テキストクエリが与えられたオーディオ混合物からターゲットサウンドを分離することを調査した。
このようなテキスト検索音声分離システムは、任意のターゲット音声を特定するための自然なスケーラブルなインターフェースを提供する。
しかし、教師付きテキストクエリ音声分離システムは、トレーニングに高価なラベル付きオーディオテキストペアを必要とする。
さらに、既存のデータセットに提供される音声は、しばしば制御された環境で記録されるため、ノイズの多い音声に対してかなりの一般化ギャップが生じる。
本研究は,未ラベルデータのみを用いることで,テキストによる普遍的音源分離にアプローチすることを目的とする。
視覚モダリティを橋梁として活用し,所望の音声・テキスト対応を学習することを提案する。
提案するクリップsepモデルは、まず、入力クエリをコントラスト言語イメージプリトレーニング(clip)モデルを用いてクエリベクトルにエンコードし、その後、クエリベクトルを使用して音声分離モデルを条件付けしてターゲット音声を分離する。
モデルはラベルのないビデオから抽出された画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはCLIPモデルによって学習された共同言語と画像の埋め込みのおかげで、ゼロショット設定でテキスト入力でモデルをクエリすることができる。
さらに、野生の動画にはスクリーン外の音や背景ノイズが含まれており、モデルが望む音声とテキストの対応を学習することを妨げている。
そこで本研究では,雑音データに基づく問合せ型音声分離モデルの学習のためのノイズ不変学習手法を提案する。
実験結果から,提案モデルでは,雑音のないビデオのみを用いて,テキストによる普遍的な音声分離を学習し,教師付きモデルと競合する性能を得ることができた。
関連論文リスト
- Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-15T05:13:43Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of
On-Screen Sounds [33.4237979175049]
本稿では,新しい音声-視覚的分離フレームワークであるAudioScopeを紹介する。
実際の映像からスクリーン上の音源を分離するための監督なしでトレーニングすることができる。
オープンドメインYFCC100mビデオデータから抽出したビデオクリップのデータセットを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-02T17:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。