論文の概要: Separate What You Describe: Language-Queried Audio Source Separation
- arxiv url: http://arxiv.org/abs/2203.15147v1
- Date: Mon, 28 Mar 2022 23:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 13:40:45.688350
- Title: Separate What You Describe: Language-Queried Audio Source Separation
- Title(参考訳): 記述するものを分離する:言語に基づく音源分離
- Authors: Xubo Liu, Haohe Liu, Qiuqiang Kong, Xinhao Mei, Jinzheng Zhao, Qiushi
Huang, Mark D. Plumbley, Wenwu Wang
- Abstract要約: 言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
- 参考スコア(独自算出の注目度): 53.65665794338574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the task of language-queried audio source
separation (LASS), which aims to separate a target source from an audio mixture
based on a natural language query of the target source (e.g., "a man tells a
joke followed by people laughing"). A unique challenge in LASS is associated
with the complexity of natural language description and its relation with the
audio sources. To address this issue, we proposed LASS-Net, an end-to-end
neural network that is learned to jointly process acoustic and linguistic
information, and separate the target source that is consistent with the
language query from an audio mixture. We evaluate the performance of our
proposed system with a dataset created from the AudioCaps dataset. Experimental
results show that LASS-Net achieves considerable improvements over baseline
methods. Furthermore, we observe that LASS-Net achieves promising
generalization results when using diverse human-annotated descriptions as
queries, indicating its potential use in real-world scenarios. The separated
audio samples and source code are available at
https://liuxubo717.github.io/LASS-demopage.
- Abstract(参考訳): 本稿では,対象ソースの自然言語クエリに基づいて,対象ソースと音声混合物を分離することを目的とした言語クエリ音声ソース分離(lass)の課題を紹介する(例えば,「男は冗談を言って笑いながら冗談を言う」など)。
LASSのユニークな課題は、自然言語記述の複雑さとオーディオソースとの関係にある。
この問題に対処するために,音響情報と言語情報を協調的に処理し,言語クエリと一致したターゲットソースをオーディオミックスから分離する,エンドツーエンドのニューラルネットワークLASS-Netを提案する。
提案システムの性能をAudioCapsデータセットから作成したデータセットを用いて評価する。
実験の結果,LASS-Netはベースライン法よりも大幅に改善されていることがわかった。
さらに、LASS-Netは、多種多様な人文記述をクエリとして使用する場合に有望な一般化結果を達成し、実世界のシナリオでの利用の可能性を示している。
分離されたオーディオサンプルとソースコードはhttps://liuxubo717.github.io/LASS-demopageで入手できる。
関連論文リスト
- Semantic Grouping Network for Audio Source Separation [41.54814517077309]
本稿では,SGNと呼ばれる新しいセマンティックグルーピングネットワークを提案する。
MUSIC, FUSS, MUSDB18, VGG-Sound という,音楽のみと普遍的な音分離ベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-04T08:37:47Z) - T-VSL: Text-Guided Visual Sound Source Localization in Mixtures [33.28678401737415]
マルチソース・ミックスからオーディオ・ビジュアル・ソース・コンパレンスをアンタングルするフレームワークを開発する。
我々のフレームワークは、テスト期間中に見つからないクラスに対して、ゼロショットの転送可能性を示す。
MUSIC、VGGSound、VGGSound-Instrumentsデータセットで実施された実験は、最先端の手法よりも大幅に性能が向上したことを示している。
論文 参考訳(メタデータ) (2024-04-02T09:07:05Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。