論文の概要: Audio-Visual Grouping Network for Sound Localization from Mixtures
- arxiv url: http://arxiv.org/abs/2303.17056v1
- Date: Wed, 29 Mar 2023 22:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 14:52:28.029471
- Title: Audio-Visual Grouping Network for Sound Localization from Mixtures
- Title(参考訳): 混合音からの音源定位のための視聴覚グループ化ネットワーク
- Authors: Shentong Mo, Yapeng Tian
- Abstract要約: 従来の単一音源法では、主に音声と視覚の関連を、各画像内の音像の局所化の手がかりとして用いた。
入力オーディオと画像から各ソースのカテゴリごとのセマンティックな特徴を直接学習できる新しい音声視覚グループネットワークであるAVGNを提案する。
既存のマルチソース手法と比較して,我々の新しいフレームワークはフレキシブルな複数の音源をローカライズし,個々の音源に対してカテゴリ対応の音響視覚表現をアンタングル化することができる。
- 参考スコア(独自算出の注目度): 30.756247389435803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound source localization is a typical and challenging task that predicts the
location of sound sources in a video. Previous single-source methods mainly
used the audio-visual association as clues to localize sounding objects in each
image. Due to the mixed property of multiple sound sources in the original
space, there exist rare multi-source approaches to localizing multiple sources
simultaneously, except for one recent work using a contrastive random walk in
the graph with images and separated sound as nodes. Despite their promising
performance, they can only handle a fixed number of sources, and they cannot
learn compact class-aware representations for individual sources. To alleviate
this shortcoming, in this paper, we propose a novel audio-visual grouping
network, namely AVGN, that can directly learn category-wise semantic features
for each source from the input audio mixture and image to localize multiple
sources simultaneously. Specifically, our AVGN leverages learnable audio-visual
class tokens to aggregate class-aware source features. Then, the aggregated
semantic features for each source can be used as guidance to localize the
corresponding visual regions. Compared to existing multi-source methods, our
new framework can localize a flexible number of sources and disentangle
category-aware audio-visual representations for individual sound sources. We
conduct extensive experiments on MUSIC, VGGSound-Instruments, and VGG-Sound
Sources benchmarks. The results demonstrate that the proposed AVGN can achieve
state-of-the-art sounding object localization performance on both single-source
and multi-source scenarios. Code is available at
\url{https://github.com/stoneMo/AVGN}.
- Abstract(参考訳): 音源の定位は、ビデオ内の音源の位置を予測する典型的な挑戦的なタスクである。
従来の単一音源法では、主に音声と視覚の関連を、各画像内の音像の局所化の手がかりとして用いた。
原空間における複数の音源の混合特性のため、画像と分離音をノードとしてグラフ内のランダムウォークを用いた最近の研究を除いて、複数の音源を同時にローカライズするための希少なマルチソースアプローチが存在する。
有望なパフォーマンスにもかかわらず、一定の数のソースしか処理できず、個々のソースに対してコンパクトなクラス認識表現を学べない。
そこで本稿では,入力オーディオミックスと画像から各ソースのカテゴリごとのセマンティックな特徴を直接学習し,複数のソースを同時にローカライズする,新たなオーディオ視覚グループネットワークであるAVGNを提案する。
具体的には、AVGNは学習可能なオーディオ視覚クラストークンを利用して、クラス認識ソースの特徴を集約する。
次に、各ソースの集約されたセマンティック機能は、対応する視覚的領域をローカライズするためのガイダンスとして使用できる。
既存のマルチソース方式と比較して, 柔軟な音源数をローカライズし, 個々の音源に対してカテゴリ対応オーディオ・ビジュアル表現を分離できる。
MUSIC, VGGSound-Instruments, VGG-Sound Sourcesベンチマークについて広範な実験を行った。
その結果,提案したAVGNは,単一ソースと複数ソースの両方のシナリオにおいて,最先端の音像定位性能を達成できることが示唆された。
コードは \url{https://github.com/stoneMo/AVGN} で入手できる。
関連論文リスト
- Towards Robust Audiovisual Segmentation in Complex Environments with
Quantization-based Semantic Decomposition [49.465783009753885]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - A Unified Audio-Visual Learning Framework for Localization, Separation,
and Recognition [26.828874753756523]
本研究では,統合型音声視覚学習フレームワーク(OneAVM)を提案する。
OneAVMは、共有オーディオ視覚エンコーダと3つの目標でトレーニングされたタスク固有のデコーダで構成される。
MUSIC、VGG-Instruments、VGG-Music、VGGSoundデータセットの実験では、3つのタスクすべてに対してOneAVMの有効性が示されている。
論文 参考訳(メタデータ) (2023-05-30T23:53:12Z) - Hear The Flow: Optical Flow-Based Self-Supervised Visual Sound Source
Localization [11.059590443280726]
明示的なアノテーションを使わずにビデオに音源をローカライズすることを学ぶことは、オーディオ視覚研究の新たな領域である。
ビデオでは、しばしば動きを示す物体が音を発生させる。
本研究では,映像中の光の流れを,音源の局所化に役立てる前兆としてモデル化することで,この特徴を捉えた。
論文 参考訳(メタデータ) (2022-11-06T03:48:45Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-25T01:42:42Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Multiple Sound Sources Localization from Coarse to Fine [41.56420350529494]
制約のないビデオで複数の音源を視覚的にローカライズする方法は、非常に難しい問題だ。
複雑なシーンから異なるカテゴリの音声と視覚の表現を分離する2段階の音声視覚学習フレームワークを開発した。
本モデルでは, ローカライゼーションのパブリックデータセット上で, 最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-13T12:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。