論文の概要: Space-Time Memory Network for Sounding Object Localization in Videos
- arxiv url: http://arxiv.org/abs/2111.05526v1
- Date: Wed, 10 Nov 2021 04:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 21:06:06.826731
- Title: Space-Time Memory Network for Sounding Object Localization in Videos
- Title(参考訳): 映像中の物体位置推定のための時空間メモリネットワーク
- Authors: Sizhe Li, Yapeng Tian, Chenliang Xu
- Abstract要約: 本稿では,映像中の物体位置を計測する時空間メモリネットワークを提案する。
一時的および横断的両方の表現について一時的注意を同時に学習することができる。
- 参考スコア(独自算出の注目度): 40.45443192327351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging temporal synchronization and association within sight and sound is
an essential step towards robust localization of sounding objects. To this end,
we propose a space-time memory network for sounding object localization in
videos. It can simultaneously learn spatio-temporal attention over both
uni-modal and cross-modal representations from audio and visual modalities. We
show and analyze both quantitatively and qualitatively the effectiveness of
incorporating spatio-temporal learning in localizing audio-visual objects. We
demonstrate that our approach generalizes over various complex audio-visual
scenes and outperforms recent state-of-the-art methods.
- Abstract(参考訳): 時間的同期と視覚と音の関連を活用することは、聴覚オブジェクトのロバストなローカライズに向けた重要なステップである。
そこで本研究では,映像中の物体位置を計測する時空間メモリネットワークを提案する。
音声と視覚のモダリティから、一様および横モードの両方の表現に対して時空間的注意を同時に学習することができる。
音声視覚オブジェクトの局所化に時空間学習を組み込むことの有効性を定量的かつ質的に示す。
本手法は,様々な複雑な視聴覚シーンを一般化し,最新の最先端手法を上回っていることを示す。
関連論文リスト
- Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - Audio-Visual Spatial Integration and Recursive Attention for Robust
Sound Source Localization [13.278494654137138]
人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。
両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。
提案手法はより堅牢な音源定位を実現する。
論文 参考訳(メタデータ) (2023-08-11T11:57:58Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - FlowGrad: Using Motion for Visual Sound Source Localization [22.5799820040774]
本研究は,移動情報を符号化する手段として,光学的流れを用いた都市景観における音源定位のための最先端手法に時間的文脈を導入している。
本手法の長所と短所を解析することにより,視覚的音源定位の問題をより深く理解し,視覚的シーン理解のためのオープンな課題に光を当てる。
論文 参考訳(メタデータ) (2022-11-15T18:12:10Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。