論文の概要: Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment
- arxiv url: http://arxiv.org/abs/2407.13676v1
- Date: Thu, 18 Jul 2024 16:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:02:17.415951
- Title: Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment
- Title(参考訳): 視線と音の調整:オーディオ・ビジュアル・アライメントによる高度な音源定位
- Authors: Arda Senocak, Hyeonggon Ryu, Junsik Kim, Tae-Hyun Oh, Hanspeter Pfister, Joon Son Chung,
- Abstract要約: 相互モーダルな相互作用は、意味的に一致した、あるいは不一致した音声視覚イベントを理解するのに不可欠である。
新しいベンチマークと評価指標は、音源定位研究でこれまで見過ごされていた問題を明らかにする。
この研究は、これまでで最も包括的な音源定位解析を提供する。
- 参考スコア(独自算出の注目度): 50.92136296059296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies on learning-based sound source localization have mainly focused on the localization performance perspective. However, prior work and existing benchmarks overlook a crucial aspect: cross-modal interaction, which is essential for interactive sound source localization. Cross-modal interaction is vital for understanding semantically matched or mismatched audio-visual events, such as silent objects or off-screen sounds. In this paper, we first comprehensively examine the cross-modal interaction of existing methods, benchmarks, evaluation metrics, and cross-modal understanding tasks. Then, we identify the limitations of previous studies and make several contributions to overcome the limitations. First, we introduce a new synthetic benchmark for interactive sound source localization. Second, we introduce new evaluation metrics to rigorously assess sound source localization methods, focusing on accurately evaluating both localization performance and cross-modal interaction ability. Third, we propose a learning framework with a cross-modal alignment strategy to enhance cross-modal interaction. Lastly, we evaluate both interactive sound source localization and auxiliary cross-modal retrieval tasks together to thoroughly assess cross-modal interaction capabilities and benchmark competing methods. Our new benchmarks and evaluation metrics reveal previously overlooked issues in sound source localization studies. Our proposed novel method, with enhanced cross-modal alignment, shows superior sound source localization performance. This work provides the most comprehensive analysis of sound source localization to date, with extensive validation of competing methods on both existing and new benchmarks using new and standard evaluation metrics.
- Abstract(参考訳): 学習に基づく音源定位に関する最近の研究は、主に音像定位性能の観点に焦点を当てている。
しかし、事前の作業と既存のベンチマークは、インタラクティブな音源定位に不可欠なクロスモーダル相互作用という重要な側面を見落としている。
クロスモーダル相互作用は、サイレントオブジェクトやオフスクリーンサウンドなど、意味的に一致した、あるいは一致していないオーディオ視覚イベントを理解するために不可欠である。
本稿ではまず,既存の手法,ベンチマーク,評価指標,モーダル間理解タスクの相互相互作用を総合的に検討する。
そして,過去の研究の限界を特定し,その限界を克服するためのいくつかの貢献を行う。
まず,対話型音源定位のための新しい合成ベンチマークを提案する。
第2に、音源定位法を厳格に評価するための新しい評価指標を導入し、局所化性能とモード間相互作用能力の両方を正確に評価することに焦点を当てた。
第3に、モーダル間相互作用を強化するために、モーダル間アライメント戦略を用いた学習フレームワークを提案する。
最後に,モーダル間相互作用機能とベンチマーク競合手法を徹底的に評価するために,インタラクティブな音源定位と補助的なモーダル間検索タスクを併用して評価する。
我々の新しいベンチマークと評価指標は、これまで見過ごされていた音源定位研究の問題点を明らかにした。
提案手法は,クロスモーダルアライメントが向上し,音源定位性能が向上した。
この研究は、これまでで最も包括的な音源定位解析を提供し、新しい評価基準と標準評価指標を用いて、既存のベンチマークと新しいベンチマークの両方で競合する手法を広範囲に検証する。
関連論文リスト
- Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention [3.5803801804085347]
本稿では,クロスアテンショナル・フレームワークにおいて,共同音声・視覚的特徴表現が使用されるような,共同のクロスアテンショナル・モデルを提案する。
また,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討する。
その結果,本モデルでは,モーダル内関係とモーダル間関係を良好に捉えることにより,融合性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-03-07T16:57:45Z) - Audio-Visual Speaker Verification via Joint Cross-Attention [4.229744884478575]
モーダル間補間情報とモーダル内情報を完全に活用するためのモーダル間共同注意
モーダル内およびモーダル間関係を効率よく活用することで、話者検証のための音声・視覚融合の性能が著しく向上することを示してきた。
論文 参考訳(メタデータ) (2023-09-28T16:25:29Z) - Sound Source Localization is All about Cross-Modal Alignment [53.957081836232206]
モーダルな意味理解は、真の音源定位には不可欠である。
音響と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業を提案する。
本手法は,音源定位法とクロスモーダル検索法の両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-19T16:04:50Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Cross-Modal Global Interaction and Local Alignment for Audio-Visual
Speech Recognition [21.477900473255264]
音声・視覚音声認識(AVSR)のための多言語間相互作用と局所アライメント(GILA)アプローチを提案する。
具体的には、A-Vの相補関係をモダリティレベルで捉えるためのグローバル相互作用モデルと、フレームレベルでのA-Vの時間的一貫性をモデル化するための局所アライメントアプローチを設計する。
我々のGILAは、公開ベンチマークのLSS3とLSS2で教師付き学習状況よりも優れています。
論文 参考訳(メタデータ) (2023-05-16T06:41:25Z) - A Closer Look at Weakly-Supervised Audio-Visual Source Localization [26.828874753756523]
映像中の視覚的音源の位置を予測することを目的とした,視覚的音源の定位化が課題である。
負のサンプルを含むために、人気のあるベンチマークであるFlickr SoundNetとVGG-Sound Sourcesを拡張します。
また,これら2つの問題に対処する視覚的音源定位のための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-30T14:17:46Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。