Fugu-MT 論文翻訳(概要): Audio-Visual Grouping Network for Sound Localization from Mixtures

論文の概要: Audio-Visual Grouping Network for Sound Localization from Mixtures

arxiv url: http://arxiv.org/abs/2303.17056v1
Date: Wed, 29 Mar 2023 22:58:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-31 14:52:28.029471
Title: Audio-Visual Grouping Network for Sound Localization from Mixtures
Title（参考訳）: 混合音からの音源定位のための視聴覚グループ化ネットワーク
Authors: Shentong Mo, Yapeng Tian
Abstract要約: 従来の単一音源法では、主に音声と視覚の関連を、各画像内の音像の局所化の手がかりとして用いた。入力オーディオと画像から各ソースのカテゴリごとのセマンティックな特徴を直接学習できる新しい音声視覚グループネットワークであるAVGNを提案する。既存のマルチソース手法と比較して,我々の新しいフレームワークはフレキシブルな複数の音源をローカライズし,個々の音源に対してカテゴリ対応の音響視覚表現をアンタングル化することができる。
参考スコア（独自算出の注目度）: 30.756247389435803
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sound source localization is a typical and challenging task that predicts the location of sound sources in a video. Previous single-source methods mainly used the audio-visual association as clues to localize sounding objects in each image. Due to the mixed property of multiple sound sources in the original space, there exist rare multi-source approaches to localizing multiple sources simultaneously, except for one recent work using a contrastive random walk in the graph with images and separated sound as nodes. Despite their promising performance, they can only handle a fixed number of sources, and they cannot learn compact class-aware representations for individual sources. To alleviate this shortcoming, in this paper, we propose a novel audio-visual grouping network, namely AVGN, that can directly learn category-wise semantic features for each source from the input audio mixture and image to localize multiple sources simultaneously. Specifically, our AVGN leverages learnable audio-visual class tokens to aggregate class-aware source features. Then, the aggregated semantic features for each source can be used as guidance to localize the corresponding visual regions. Compared to existing multi-source methods, our new framework can localize a flexible number of sources and disentangle category-aware audio-visual representations for individual sound sources. We conduct extensive experiments on MUSIC, VGGSound-Instruments, and VGG-Sound Sources benchmarks. The results demonstrate that the proposed AVGN can achieve state-of-the-art sounding object localization performance on both single-source and multi-source scenarios. Code is available at \url{https://github.com/stoneMo/AVGN}.
Abstract（参考訳）: 音源の定位は、ビデオ内の音源の位置を予測する典型的な挑戦的なタスクである。従来の単一音源法では、主に音声と視覚の関連を、各画像内の音像の局所化の手がかりとして用いた。原空間における複数の音源の混合特性のため、画像と分離音をノードとしてグラフ内のランダムウォークを用いた最近の研究を除いて、複数の音源を同時にローカライズするための希少なマルチソースアプローチが存在する。有望なパフォーマンスにもかかわらず、一定の数のソースしか処理できず、個々のソースに対してコンパクトなクラス認識表現を学べない。そこで本稿では,入力オーディオミックスと画像から各ソースのカテゴリごとのセマンティックな特徴を直接学習し,複数のソースを同時にローカライズする,新たなオーディオ視覚グループネットワークであるAVGNを提案する。具体的には、AVGNは学習可能なオーディオ視覚クラストークンを利用して、クラス認識ソースの特徴を集約する。次に、各ソースの集約されたセマンティック機能は、対応する視覚的領域をローカライズするためのガイダンスとして使用できる。既存のマルチソース方式と比較して, 柔軟な音源数をローカライズし, 個々の音源に対してカテゴリ対応オーディオ・ビジュアル表現を分離できる。 MUSIC, VGGSound-Instruments, VGG-Sound Sourcesベンチマークについて広範な実験を行った。その結果,提案したAVGNは,単一ソースと複数ソースの両方のシナリオにおいて,最先端の音像定位性能を達成できることが示唆された。コードは \url{https://github.com/stoneMo/AVGN} で入手できる。

関連論文リスト

Semantic Grouping Network for Audio Source Separation [41.54814517077309]
本稿では,SGNと呼ばれる新しいセマンティックグルーピングネットワークを提案する。 MUSIC, FUSS, MUSDB18, VGG-Sound という,音楽のみと普遍的な音分離ベンチマークについて広範な実験を行った。
論文参考訳（メタデータ） (2024-07-04T08:37:47Z)
T-VSL: Text-Guided Visual Sound Source Localization in Mixtures [33.28678401737415]
マルチソース・ミックスからオーディオ・ビジュアル・ソース・コンパレンスをアンタングルするフレームワークを開発する。我々のフレームワークは、テスト期間中に見つからないクラスに対して、ゼロショットの転送可能性を示す。 MUSIC、VGGSound、VGGSound-Instrumentsデータセットで実施された実験は、最先端の手法よりも大幅に性能が向上したことを示している。
論文参考訳（メタデータ） (2024-04-02T09:07:05Z)
Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge [14.801564966406486]
マルチサウンド音源定位タスクの目標は、混合音からの音源を個別にローカライズすることである。そこで本研究では,音源数に関する事前知識を必要とせずに,複数音源の局所化を行う手法を提案する。
論文参考訳（メタデータ） (2024-03-26T06:27:50Z)
Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文参考訳（メタデータ） (2023-08-09T16:09:44Z)
Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。 LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文参考訳（メタデータ） (2022-03-28T23:47:57Z)
Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。 SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文参考訳（メタデータ） (2022-03-25T01:42:42Z)
Visual Sound Localization in the Wild by Cross-Modal Interference Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文参考訳（メタデータ） (2022-02-13T21:06:19Z)
Joint Learning of Visual-Audio Saliency Prediction and Sound Source Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文参考訳（メタデータ） (2021-11-05T14:35:08Z)
Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文参考訳（メタデータ） (2021-09-24T13:40:51Z)
Multiple Sound Sources Localization from Coarse to Fine [41.56420350529494]
制約のないビデオで複数の音源を視覚的にローカライズする方法は、非常に難しい問題だ。複雑なシーンから異なるカテゴリの音声と視覚の表現を分離する2段階の音声視覚学習フレームワークを開発した。本モデルでは, ローカライゼーションのパブリックデータセット上で, 最先端の結果を得る。
論文参考訳（メタデータ） (2020-07-13T12:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。