論文の概要: Hear The Flow: Optical Flow-Based Self-Supervised Visual Sound Source
Localization
- arxiv url: http://arxiv.org/abs/2211.03019v1
- Date: Sun, 6 Nov 2022 03:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 17:20:33.997820
- Title: Hear The Flow: Optical Flow-Based Self-Supervised Visual Sound Source
Localization
- Title(参考訳): hear the flow:光フローに基づく自己教師付き視覚音源定位
- Authors: Dennis Fedorishin, Deen Dayal Mohan, Bhavin Jawade, Srirangaraj
Setlur, Venu Govindaraju
- Abstract要約: 明示的なアノテーションを使わずにビデオに音源をローカライズすることを学ぶことは、オーディオ視覚研究の新たな領域である。
ビデオでは、しばしば動きを示す物体が音を発生させる。
本研究では,映像中の光の流れを,音源の局所化に役立てる前兆としてモデル化することで,この特徴を捉えた。
- 参考スコア(独自算出の注目度): 11.059590443280726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to localize the sound source in videos without explicit annotations
is a novel area of audio-visual research. Existing work in this area focuses on
creating attention maps to capture the correlation between the two modalities
to localize the source of the sound. In a video, oftentimes, the objects
exhibiting movement are the ones generating the sound. In this work, we capture
this characteristic by modeling the optical flow in a video as a prior to
better aid in localizing the sound source. We further demonstrate that the
addition of flow-based attention substantially improves visual sound source
localization. Finally, we benchmark our method on standard sound source
localization datasets and achieve state-of-the-art performance on the Soundnet
Flickr and VGG Sound Source datasets. Code:
https://github.com/denfed/heartheflow.
- Abstract(参考訳): 明示的な注釈を使わずに映像中の音源をローカライズする学習は、視聴覚研究の新しい分野である。
この領域における既存の研究は、音の源を局所化する2つのモダリティ間の相関を捉えるために注意マップを作成することに焦点を当てている。
ビデオでは、しばしば、動きを示す物体が音を発生させる。
本研究では,映像中の光の流れを,音源の局所化支援に先立ってモデル化することにより,この特性を捉える。
さらに, 流れに基づく注意の付加により, 音源定位が大幅に向上することを示す。
最後に,本手法を標準音源定位データセットにベンチマークし,Soundnet Flickr および VGG Sound Source データセットの最先端性能を実現する。
コード: https://github.com/denfed/heartheflow。
関連論文リスト
- Sound Source Localization is All about Cross-Modal Alignment [53.957081836232206]
モーダルな意味理解は、真の音源定位には不可欠である。
音響と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業を提案する。
本手法は,音源定位法とクロスモーダル検索法の両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-19T16:04:50Z) - Audio-Visual Spatial Integration and Recursive Attention for Robust
Sound Source Localization [13.278494654137138]
人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。
両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。
提案手法はより堅牢な音源定位を実現する。
論文 参考訳(メタデータ) (2023-08-11T11:57:58Z) - FlowGrad: Using Motion for Visual Sound Source Localization [22.5799820040774]
本研究は,移動情報を符号化する手段として,光学的流れを用いた都市景観における音源定位のための最先端手法に時間的文脈を導入している。
本手法の長所と短所を解析することにより,視覚的音源定位の問題をより深く理解し,視覚的シーン理解のためのオープンな課題に光を当てる。
論文 参考訳(メタデータ) (2022-11-15T18:12:10Z) - Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-25T01:42:42Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Visually Guided Sound Source Separation and Localization using
Self-Supervised Motion Representations [16.447597767676655]
入力ビデオシーケンスのソース位置をピンポイントすることを目的としている。
近年の研究では、ソースタイプの事前知識を用いて、オーディオと視覚の分離結果が顕著に示されている。
本研究では,出現と運動の手がかりを専門とする2段階アーキテクチャであるexeation and motion network (amnet)を提案する。
論文 参考訳(メタデータ) (2021-04-17T10:09:15Z) - Multiple Sound Sources Localization from Coarse to Fine [41.56420350529494]
制約のないビデオで複数の音源を視覚的にローカライズする方法は、非常に難しい問題だ。
複雑なシーンから異なるカテゴリの音声と視覚の表現を分離する2段階の音声視覚学習フレームワークを開発した。
本モデルでは, ローカライゼーションのパブリックデータセット上で, 最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-13T12:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。