論文の概要: T-VSL: Text-Guided Visual Sound Source Localization in Mixtures
- arxiv url: http://arxiv.org/abs/2404.01751v2
- Date: Sun, 7 Jul 2024 06:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 02:09:29.041872
- Title: T-VSL: Text-Guided Visual Sound Source Localization in Mixtures
- Title(参考訳): T-VSL:混合音におけるテキストガイド型視覚音源定位
- Authors: Tanvir Mahmud, Yapeng Tian, Diana Marculescu,
- Abstract要約: マルチソース・ミックスからオーディオ・ビジュアル・ソース・コンパレンスをアンタングルするフレームワークを開発する。
我々のフレームワークは、テスト期間中に見つからないクラスに対して、ゼロショットの転送可能性を示す。
MUSIC、VGGSound、VGGSound-Instrumentsデータセットで実施された実験は、最先端の手法よりも大幅に性能が向上したことを示している。
- 参考スコア(独自算出の注目度): 33.28678401737415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual sound source localization poses a significant challenge in identifying the semantic region of each sounding source within a video. Existing self-supervised and weakly supervised source localization methods struggle to accurately distinguish the semantic regions of each sounding object, particularly in multi-source mixtures. These methods often rely on audio-visual correspondence as guidance, which can lead to substantial performance drops in complex multi-source localization scenarios. The lack of access to individual source sounds in multi-source mixtures during training exacerbates the difficulty of learning effective audio-visual correspondence for localization. To address this limitation, in this paper, we propose incorporating the text modality as an intermediate feature guide using tri-modal joint embedding models (e.g., AudioCLIP) to disentangle the semantic audio-visual source correspondence in multi-source mixtures. Our framework, dubbed T-VSL, begins by predicting the class of sounding entities in mixtures. Subsequently, the textual representation of each sounding source is employed as guidance to disentangle fine-grained audio-visual source correspondence from multi-source mixtures, leveraging the tri-modal AudioCLIP embedding. This approach enables our framework to handle a flexible number of sources and exhibits promising zero-shot transferability to unseen classes during test time. Extensive experiments conducted on the MUSIC, VGGSound, and VGGSound-Instruments datasets demonstrate significant performance improvements over state-of-the-art methods. Code is released at https://github.com/enyac-group/T-VSL/tree/main
- Abstract(参考訳): 視覚的音源定位は、ビデオ内の各音源の意味領域を特定する上で重要な課題となる。
既存の教師付きおよび弱教師付きソースローカライゼーション手法は、特にマルチソース混合において、各サウンドオブジェクトのセマンティック領域を正確に区別するのに苦労する。
これらの手法は、複雑なマルチソースのローカライゼーションシナリオにおいて、大きなパフォーマンス低下につながるであろうガイダンスとして、音声と視覚の対応に依存することが多い。
トレーニング中の複数音源混合音に対する個々の音源音へのアクセスの欠如は、ローカライゼーションのための効果的な音声-視覚対応の学習の困難さを増す。
この制限に対処するため、本論文では、テキストモダリティを3モーダル結合埋め込みモデル(例:AudioCLIP)を用いて中間的特徴ガイドとして組み込むことにより、マルチソースミックスにおける意味的音声-視覚的ソース対応を解消する。
我々のフレームワークは、T-VSLと呼ばれ、混合物中の音素のクラスを予測することから始まります。
その後、マルチソース混合物から微細なオーディオ・ビジュアル・ソース・コンパレンスを切り離し、トリモーダルAudioCLIP埋め込みを利用するためのガイダンスとして、各音源のテキスト表現を用いる。
このアプローチにより、当社のフレームワークは、フレキシブルな数のソースを処理でき、テスト期間中に見つからないクラスに対して、期待できるゼロショット転送可能性を示すことができます。
MUSIC、VGGSound、VGGSound-Instrumentsデータセットで実施された大規模な実験は、最先端の手法よりも大幅に性能が向上したことを示している。
コードはhttps://github.com/enyac-group/T-VSL/tree/mainでリリースされる
関連論文リスト
- OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio Separation [9.453883041423468]
我々は,大規模言語モデル(LLM)を利用して自動音声分離を行う新しいフレームワークであるOpenSepを提案する。
OpenSepはテキストインバージョンを使用して、市販のオーディオキャプションモデルとオーディオミックスからキャプションを生成し、現在ある音源を効果的に解析する。
その後、数発のLCMを使用して、パースされたソースの詳細なオーディオ特性を抽出し、目に見えない混合物の分離を容易にする。
論文 参考訳(メタデータ) (2024-09-28T06:59:52Z) - Semantic Grouping Network for Audio Source Separation [41.54814517077309]
本稿では,SGNと呼ばれる新しいセマンティックグルーピングネットワークを提案する。
MUSIC, FUSS, MUSDB18, VGG-Sound という,音楽のみと普遍的な音分離ベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-04T08:37:47Z) - Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge [14.801564966406486]
マルチサウンド音源定位タスクの目標は、混合音からの音源を個別にローカライズすることである。
そこで本研究では,音源数に関する事前知識を必要とせずに,複数音源の局所化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T06:27:50Z) - Sound Source Localization is All about Cross-Modal Alignment [53.957081836232206]
モーダルな意味理解は、真の音源定位には不可欠である。
音響と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業を提案する。
本手法は,音源定位法とクロスモーダル検索法の両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-19T16:04:50Z) - Audio-Visual Grouping Network for Sound Localization from Mixtures [30.756247389435803]
従来の単一音源法では、主に音声と視覚の関連を、各画像内の音像の局所化の手がかりとして用いた。
入力オーディオと画像から各ソースのカテゴリごとのセマンティックな特徴を直接学習できる新しい音声視覚グループネットワークであるAVGNを提案する。
既存のマルチソース手法と比較して,我々の新しいフレームワークはフレキシブルな複数の音源をローカライズし,個々の音源に対してカテゴリ対応の音響視覚表現をアンタングル化することができる。
論文 参考訳(メタデータ) (2023-03-29T22:58:55Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - Multiple Sound Sources Localization from Coarse to Fine [41.56420350529494]
制約のないビデオで複数の音源を視覚的にローカライズする方法は、非常に難しい問題だ。
複雑なシーンから異なるカテゴリの音声と視覚の表現を分離する2段階の音声視覚学習フレームワークを開発した。
本モデルでは, ローカライゼーションのパブリックデータセット上で, 最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-13T12:59:40Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。