論文の概要: Multiple Sound Sources Localization from Coarse to Fine
- arxiv url: http://arxiv.org/abs/2007.06355v2
- Date: Tue, 14 Jul 2020 13:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:17:36.483109
- Title: Multiple Sound Sources Localization from Coarse to Fine
- Title(参考訳): 粗いものから細かいものへの複数の音源の定位
- Authors: Rui Qian, Di Hu, Heinrich Dinkel, Mengyue Wu, Ning Xu, Weiyao Lin
- Abstract要約: 制約のないビデオで複数の音源を視覚的にローカライズする方法は、非常に難しい問題だ。
複雑なシーンから異なるカテゴリの音声と視覚の表現を分離する2段階の音声視覚学習フレームワークを開発した。
本モデルでは, ローカライゼーションのパブリックデータセット上で, 最先端の結果を得る。
- 参考スコア(独自算出の注目度): 41.56420350529494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to visually localize multiple sound sources in unconstrained videos is a
formidable problem, especially when lack of the pairwise sound-object
annotations. To solve this problem, we develop a two-stage audiovisual learning
framework that disentangles audio and visual representations of different
categories from complex scenes, then performs cross-modal feature alignment in
a coarse-to-fine manner. Our model achieves state-of-the-art results on public
dataset of localization, as well as considerable performance on multi-source
sound localization in complex scenes. We then employ the localization results
for sound separation and obtain comparable performance to existing methods.
These outcomes demonstrate our model's ability in effectively aligning sounds
with specific visual sources. Code is available at
https://github.com/shvdiwnkozbw/Multi-Source-Sound-Localization
- Abstract(参考訳): 制約のないビデオで複数の音源を視覚的にローカライズする方法は、特にペアワイズなサウンドオブジェクトアノテーションが欠けている場合、恐ろしい問題です。
そこで本研究では,複雑なシーンから異なるカテゴリの音声表現と視覚表現を分離し,粗面から細部までのクロスモーダル特徴のアライメントを行う2段階視聴覚学習フレームワークを開発した。
本モデルでは,局所化の公開データセット上での最先端結果と,複雑な場面における複数音源音像定位における有意な性能を実現する。
次に, 音像分離のための局所化結果を用い, 既存の手法に匹敵する性能を得る。
これらの結果は、特定の視覚源と効果的に音を調整できるモデルの能力を示している。
コードはhttps://github.com/shvdiwnkozbw/Multi-Source-Sound-Localizationで入手できる。
関連論文リスト
- Multi-scale Multi-instance Visual Sound Localization and Segmentation [15.624453757710802]
本稿では,M2VSLという新しいマルチスケール視覚音像定位フレームワークを提案する。
M2VSLは入力画像から音源に関連するマルチスケール意味的特徴を学習し,音像の局所化を行う。
我々は,VGGSound-Instruments,VGG-Sound Sources,AVSBenchベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-08-31T15:43:22Z) - T-VSL: Text-Guided Visual Sound Source Localization in Mixtures [33.28678401737415]
マルチソース・ミックスからオーディオ・ビジュアル・ソース・コンパレンスをアンタングルするフレームワークを開発する。
我々のフレームワークは、テスト期間中に見つからないクラスに対して、ゼロショットの転送可能性を示す。
MUSIC、VGGSound、VGGSound-Instrumentsデータセットで実施された実験は、最先端の手法よりも大幅に性能が向上したことを示している。
論文 参考訳(メタデータ) (2024-04-02T09:07:05Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Sound Source Localization is All about Cross-Modal Alignment [53.957081836232206]
モーダルな意味理解は、真の音源定位には不可欠である。
音響と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業を提案する。
本手法は,音源定位法とクロスモーダル検索法の両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-19T16:04:50Z) - Audio-Visual Grouping Network for Sound Localization from Mixtures [30.756247389435803]
従来の単一音源法では、主に音声と視覚の関連を、各画像内の音像の局所化の手がかりとして用いた。
入力オーディオと画像から各ソースのカテゴリごとのセマンティックな特徴を直接学習できる新しい音声視覚グループネットワークであるAVGNを提案する。
既存のマルチソース手法と比較して,我々の新しいフレームワークはフレキシブルな複数の音源をローカライズし,個々の音源に対してカテゴリ対応の音響視覚表現をアンタングル化することができる。
論文 参考訳(メタデータ) (2023-03-29T22:58:55Z) - Hear The Flow: Optical Flow-Based Self-Supervised Visual Sound Source
Localization [11.059590443280726]
明示的なアノテーションを使わずにビデオに音源をローカライズすることを学ぶことは、オーディオ視覚研究の新たな領域である。
ビデオでは、しばしば動きを示す物体が音を発生させる。
本研究では,映像中の光の流れを,音源の局所化に役立てる前兆としてモデル化することで,この特徴を捉えた。
論文 参考訳(メタデータ) (2022-11-06T03:48:45Z) - Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-25T01:42:42Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。