論文の概要: Sound Source Localization is All about Cross-Modal Alignment
- arxiv url: http://arxiv.org/abs/2309.10724v1
- Date: Tue, 19 Sep 2023 16:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:44:57.468366
- Title: Sound Source Localization is All about Cross-Modal Alignment
- Title(参考訳): 音源の定位はクロスモーダルアライメントである
- Authors: Arda Senocak, Hyeonggon Ryu, Junsik Kim, Tae-Hyun Oh, Hanspeter
Pfister, Joon Son Chung
- Abstract要約: モーダルな意味理解は、真の音源定位には不可欠である。
音響と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業を提案する。
本手法は,音源定位法とクロスモーダル検索法の両方において,最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 53.957081836232206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can easily perceive the direction of sound sources in a visual scene,
termed sound source localization. Recent studies on learning-based sound source
localization have mainly explored the problem from a localization perspective.
However, prior arts and existing benchmarks do not account for a more important
aspect of the problem, cross-modal semantic understanding, which is essential
for genuine sound source localization. Cross-modal semantic understanding is
important in understanding semantically mismatched audio-visual events, e.g.,
silent objects, or off-screen sounds. To account for this, we propose a
cross-modal alignment task as a joint task with sound source localization to
better learn the interaction between audio and visual modalities. Thereby, we
achieve high localization performance with strong cross-modal semantic
understanding. Our method outperforms the state-of-the-art approaches in both
sound source localization and cross-modal retrieval. Our work suggests that
jointly tackling both tasks is necessary to conquer genuine sound source
localization.
- Abstract(参考訳): 人間は視覚シーンにおける音源の方向を容易に認識でき、音源の定位と呼ばれる。
学習に基づく音源定位に関する最近の研究は,主にローカライゼーションの観点から検討されている。
しかしながら、先行技術や既存のベンチマークは、真の音源のローカライゼーションに不可欠な、クロスモーダルな意味理解という問題のより重要な側面を考慮していない。
クロスモーダルな意味理解は、例えばサイレントオブジェクトやオフスクリーンサウンドなど、意味的に不一致な音声視覚イベントを理解する上で重要である。
そこで本研究では,音声と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業として,クロスモーダルアライメントタスクを提案する。
これにより,クロスモーダルなセマンティック理解が強く,高いローカライゼーション性能を実現する。
本手法は音源定位とクロスモーダル検索の両方において最先端のアプローチを上回っている。
我々の研究は、真の音源定位を克服するためには、両方のタスクを共同で取り組む必要があることを示唆している。
関連論文リスト
- Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment [50.92136296059296]
相互モーダルな相互作用は、意味的に一致した、あるいは不一致した音声視覚イベントを理解するのに不可欠である。
新しいベンチマークと評価指標は、音源定位研究でこれまで見過ごされていた問題を明らかにする。
この研究は、これまでで最も包括的な音源定位解析を提供する。
論文 参考訳(メタデータ) (2024-07-18T16:51:15Z) - T-VSL: Text-Guided Visual Sound Source Localization in Mixtures [33.28678401737415]
マルチソース・ミックスからオーディオ・ビジュアル・ソース・コンパレンスをアンタングルするフレームワークを開発する。
我々のフレームワークは、テスト期間中に見つからないクラスに対して、ゼロショットの転送可能性を示す。
MUSIC、VGGSound、VGGSound-Instrumentsデータセットで実施された実験は、最先端の手法よりも大幅に性能が向上したことを示している。
論文 参考訳(メタデータ) (2024-04-02T09:07:05Z) - Audio-Visual Spatial Integration and Recursive Attention for Robust
Sound Source Localization [13.278494654137138]
人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。
両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。
提案手法はより堅牢な音源定位を実現する。
論文 参考訳(メタデータ) (2023-08-11T11:57:58Z) - FlowGrad: Using Motion for Visual Sound Source Localization [22.5799820040774]
本研究は,移動情報を符号化する手段として,光学的流れを用いた都市景観における音源定位のための最先端手法に時間的文脈を導入している。
本手法の長所と短所を解析することにより,視覚的音源定位の問題をより深く理解し,視覚的シーン理解のためのオープンな課題に光を当てる。
論文 参考訳(メタデータ) (2022-11-15T18:12:10Z) - Hear The Flow: Optical Flow-Based Self-Supervised Visual Sound Source
Localization [11.059590443280726]
明示的なアノテーションを使わずにビデオに音源をローカライズすることを学ぶことは、オーディオ視覚研究の新たな領域である。
ビデオでは、しばしば動きを示す物体が音を発生させる。
本研究では,映像中の光の流れを,音源の局所化に役立てる前兆としてモデル化することで,この特徴を捉えた。
論文 参考訳(メタデータ) (2022-11-06T03:48:45Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Cross-Modal Generalization: Learning in Low Resource Modalities via
Meta-Alignment [99.29153138760417]
クロスモーダル一般化は、ターゲットのモダリティにおいて、新しいタスクを迅速に実行できるモデルを訓練する学習パラダイムである。
我々は、異なるソースとターゲットのモダリティに対して異なるエンコーダを使用しながら、モダリティをまたいだ一般化を確保するにはどうすればよいのかという重要な研究課題について研究する。
メタアライメント(メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライ
論文 参考訳(メタデータ) (2020-12-04T19:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。