論文の概要: Audio-Visual Spatial Integration and Recursive Attention for Robust
Sound Source Localization
- arxiv url: http://arxiv.org/abs/2308.06087v1
- Date: Fri, 11 Aug 2023 11:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 18:12:16.241952
- Title: Audio-Visual Spatial Integration and Recursive Attention for Robust
Sound Source Localization
- Title(参考訳): ロバスト音源定位のための視聴覚空間統合と再帰的注意
- Authors: Sung Jin Um, Dongjin Kim, Jung Uk Kim
- Abstract要約: 人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。
両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。
提案手法はより堅牢な音源定位を実現する。
- 参考スコア(独自算出の注目度): 13.278494654137138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of the sound source localization task is to enable machines to
detect the location of sound-making objects within a visual scene. While the
audio modality provides spatial cues to locate the sound source, existing
approaches only use audio as an auxiliary role to compare spatial regions of
the visual modality. Humans, on the other hand, utilize both audio and visual
modalities as spatial cues to locate sound sources. In this paper, we propose
an audio-visual spatial integration network that integrates spatial cues from
both modalities to mimic human behavior when detecting sound-making objects.
Additionally, we introduce a recursive attention network to mimic human
behavior of iterative focusing on objects, resulting in more accurate attention
regions. To effectively encode spatial information from both modalities, we
propose audio-visual pair matching loss and spatial region alignment loss. By
utilizing the spatial cues of audio-visual modalities and recursively focusing
objects, our method can perform more robust sound source localization.
Comprehensive experimental results on the Flickr SoundNet and VGG-Sound Source
datasets demonstrate the superiority of our proposed method over existing
approaches. Our code is available at: https://github.com/VisualAIKHU/SIRA-SSL
- Abstract(参考訳): 音源定位タスクの目的は、機械が視覚的シーン内の音質物体の位置を検知できるようにすることである。
オーディオモダリティは音源を見つけるための空間的手がかりを提供するが、既存のアプローチでは視覚モダリティの空間的領域を比較する補助的な役割としてのみ音声を使用する。
一方,人間は音声と視覚の両方を空間的手がかりとして利用し,音源の特定を行う。
本稿では,両モードからの空間的手がかりを統合し,音質オブジェクトを検出する際の人間の動作を模倣する空間空間統合ネットワークを提案する。
さらに,対象物に対する反復的焦点の人間の振る舞いを模倣する再帰的注意ネットワークを導入し,より正確な注意領域を実現する。
両モードから空間情報を効果的に符号化するために,音声-視覚対整合損失と空間領域アライメント損失を提案する。
本手法は,視聴覚モーダルの空間的手がかりと再帰的に焦点を合わせる物体を利用することにより,よりロバストな音源定位を行うことができる。
Flickr SoundNetおよびVGG-Sound Sourceデータセットの総合的な実験結果から,提案手法が既存手法よりも優れていることを示す。
私たちのコードは、https://github.com/VisualAIKHU/SIRA-SSLで利用可能です。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge [14.801564966406486]
マルチサウンド音源定位タスクの目標は、混合音からの音源を個別にローカライズすることである。
そこで本研究では,音源数に関する事前知識を必要とせずに,複数音源の局所化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T06:27:50Z) - LAVSS: Location-Guided Audio-Visual Spatial Audio Separation [52.44052357829296]
位置誘導型空間空間オーディオセパレータを提案する。
提案するLAVSSは,空間的オーディオと視覚的位置の相関に着想を得たものである。
さらに,事前学習したモノラル分離器を用いて,豊かなモノラル音からの知識を伝達し,空間的音声分離を促進する。
論文 参考訳(メタデータ) (2023-10-31T13:30:24Z) - Sound Source Localization is All about Cross-Modal Alignment [53.957081836232206]
モーダルな意味理解は、真の音源定位には不可欠である。
音響と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業を提案する。
本手法は,音源定位法とクロスモーダル検索法の両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-19T16:04:50Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Space-Time Memory Network for Sounding Object Localization in Videos [40.45443192327351]
本稿では,映像中の物体位置を計測する時空間メモリネットワークを提案する。
一時的および横断的両方の表現について一時的注意を同時に学習することができる。
論文 参考訳(メタデータ) (2021-11-10T04:40:12Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。