論文の概要: FlowGrad: Using Motion for Visual Sound Source Localization
- arxiv url: http://arxiv.org/abs/2211.08367v2
- Date: Fri, 14 Apr 2023 18:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 23:26:08.024582
- Title: FlowGrad: Using Motion for Visual Sound Source Localization
- Title(参考訳): FlowGrad: モーションを用いた視覚音源定位
- Authors: Rajsuryan Singh, Pablo Zinemanas, Xavier Serra, Juan Pablo Bello,
Magdalena Fuentes
- Abstract要約: 本研究は,移動情報を符号化する手段として,光学的流れを用いた都市景観における音源定位のための最先端手法に時間的文脈を導入している。
本手法の長所と短所を解析することにより,視覚的音源定位の問題をより深く理解し,視覚的シーン理解のためのオープンな課題に光を当てる。
- 参考スコア(独自算出の注目度): 22.5799820040774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most recent work in visual sound source localization relies on semantic
audio-visual representations learned in a self-supervised manner, and by design
excludes temporal information present in videos. While it proves to be
effective for widely used benchmark datasets, the method falls short for
challenging scenarios like urban traffic. This work introduces temporal context
into the state-of-the-art methods for sound source localization in urban scenes
using optical flow as a means to encode motion information. An analysis of the
strengths and weaknesses of our methods helps us better understand the problem
of visual sound source localization and sheds light on open challenges for
audio-visual scene understanding.
- Abstract(参考訳): 視覚音源のローカライゼーションに関する最近の研究は、自己教師方式で学習したセマンティックな音声・視覚表現に依存しており、設計上、ビデオに存在する時間情報を排除している。
広く使われているベンチマークデータセットに有効であることが証明されているが、この方法は都市交通のような困難なシナリオでは不足している。
本研究は, 映像情報をエンコードする手法として光フローを用いた都市シーンにおける音源定位手法に, 時間的文脈を導入するものである。
本手法の長所と短所を解析することにより,視覚的音源定位の問題をより深く理解し,視覚的シーン理解のためのオープンな課題に光を当てる。
関連論文リスト
- Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - Sound Source Localization is All about Cross-Modal Alignment [53.957081836232206]
モーダルな意味理解は、真の音源定位には不可欠である。
音響と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業を提案する。
本手法は,音源定位法とクロスモーダル検索法の両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-19T16:04:50Z) - Hear The Flow: Optical Flow-Based Self-Supervised Visual Sound Source
Localization [11.059590443280726]
明示的なアノテーションを使わずにビデオに音源をローカライズすることを学ぶことは、オーディオ視覚研究の新たな領域である。
ビデオでは、しばしば動きを示す物体が音を発生させる。
本研究では,映像中の光の流れを,音源の局所化に役立てる前兆としてモデル化することで,この特徴を捉えた。
論文 参考訳(メタデータ) (2022-11-06T03:48:45Z) - OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context [58.932717614439916]
我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。
本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
本手法はEPIC-KITCHENS-100の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T10:50:52Z) - Space-Time Memory Network for Sounding Object Localization in Videos [40.45443192327351]
本稿では,映像中の物体位置を計測する時空間メモリネットワークを提案する。
一時的および横断的両方の表現について一時的注意を同時に学習することができる。
論文 参考訳(メタデータ) (2021-11-10T04:40:12Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - Contrastive Learning of Global and Local Audio-Visual Representations [25.557229705149577]
グローバルな意味情報を必要とするタスクに一般化する音声視覚表現を学習するための多目的自己教師方式を提案する。
提案手法は,アクション・サウンド分類,口唇読解,ディープフェイク検出,音源定位など,下流の様々なシナリオで汎用的な映像表現を学習できることを示す。
論文 参考訳(メタデータ) (2021-04-07T07:35:08Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Do We Need Sound for Sound Source Localization? [12.512982702508669]
音源定位を解消する教師なし学習システムを開発した。
現在採用されているベンチマークデータセットで評価すると、視覚情報が「サウンド」ソースのローカライゼーションに支配的であることが分かる。
本稿では,視覚情報と聴覚情報の両方を活用可能な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-07-11T08:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。