論文の概要: GASS: Generalizing Audio Source Separation with Large-scale Data
- arxiv url: http://arxiv.org/abs/2310.00140v1
- Date: Fri, 29 Sep 2023 21:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 06:22:41.622339
- Title: GASS: Generalizing Audio Source Separation with Large-scale Data
- Title(参考訳): GASS:大規模データによる音源分離の一般化
- Authors: Jordi Pons, Xiaoyu Liu, Santiago Pascual, Joan Serr\`a
- Abstract要約: ユニバーサルソース分離は、任意のミックスのオーディオソースを分離し、音声や音楽などの特定のドメインで操作する制約を取り除くことを目的としている。
そこで本研究では,大規模データセットを用いて音声,音楽,音声イベントを教師付き形式で分離するために訓練された1つの一般音源分離モデルについて検討する。
- 参考スコア(独自算出の注目度): 17.176462322552098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Universal source separation targets at separating the audio sources of an
arbitrary mix, removing the constraint to operate on a specific domain like
speech or music. Yet, the potential of universal source separation is limited
because most existing works focus on mixes with predominantly sound events, and
small training datasets also limit its potential for supervised learning. Here,
we study a single general audio source separation (GASS) model trained to
separate speech, music, and sound events in a supervised fashion with a
large-scale dataset. We assess GASS models on a diverse set of tasks. Our
strong in-distribution results show the feasibility of GASS models, and the
competitive out-of-distribution performance in sound event and speech
separation shows its generalization abilities. Yet, it is challenging for GASS
models to generalize for separating out-of-distribution cinematic and music
content. We also fine-tune GASS models on each dataset and consistently
outperform the ones without pre-training. All fine-tuned models (except the
music separation one) obtain state-of-the-art results in their respective
benchmarks.
- Abstract(参考訳): ユニバーサルソース分離は、任意のミックスの音源を分離し、音声や音楽などの特定の領域で操作する制約を取り除くことを目的としている。
しかし、既存のほとんどの研究は、主に健全なイベントとの混合に焦点を当てており、小さなトレーニングデータセットも教師付き学習の可能性を制限するため、ユニバーサルソース分離の可能性は限られている。
そこで本研究では,大規模データセットを用いて音声,音楽,音声イベントを教師付き形式で分離するために訓練された1つのGASSモデルについて検討する。
GASSモデルを多様なタスクセットで評価する。
その結果, ガスモデルの実現可能性, 音響イベントと音声分離における競合的分散性能は, 一般化能力を示している。
しかし,GASSモデルでは,映像コンテンツと音楽コンテンツとの分離を一般化することは困難である。
また、各データセット上でGASSモデルを微調整し、事前トレーニングなしで継続的にパフォーマンスを向上します。
すべての微調整されたモデル(音楽分離を除く)は、それぞれのベンチマークで最先端の結果を得る。
関連論文リスト
- Universal Sound Separation with Self-Supervised Audio Masked Autoencoder [35.560261097213846]
本稿では,音声マスク付きオートエンコーダ(A-MAE)を汎用的な音声分離システムに統合する自己教師付き事前学習モデルを提案する。
提案手法は,最先端のResUNetベースUSSモデルの分離性能の向上に成功している。
論文 参考訳(メタデータ) (2024-07-16T14:11:44Z) - Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations [16.269123889392343]
本研究は,汎用音声表現学習のための選択状態空間モデルであるAudio Mambaを提案する。
10種類の多様なオーディオ認識ダウンストリームタスクに対する実験結果から、提案したモデルは、同等の自己教師型オーディオスペクトログラム変換器のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-06-04T10:19:14Z) - Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。
分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。
AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event
Parser [34.19935635508947]
未探索のアンアライメント・セッティングについて検討し、そのゴールは、弱いラベルしか観測されていないビデオにおいて、音声や視覚イベントを認識することである。
この挑戦的な環境での学習を強化するため、大規模で対照的に事前訓練されたモデルをモダリティ教師として組み込んだ。
VALOR(Visual-Audio Label Elaboration)と呼ばれる、シンプルで効果的で汎用的な手法は、トレーニングイベントのモダリティラベルを抽出するために革新されている。
論文 参考訳(メタデータ) (2023-05-27T02:57:39Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-15T05:13:43Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。