論文の概要: Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching
- arxiv url: http://arxiv.org/abs/2010.05466v1
- Date: Mon, 12 Oct 2020 05:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 06:32:14.164899
- Title: Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching
- Title(参考訳): 自己教師付き視聴覚マッチングによる識別聴覚物体の定位
- Authors: Di Hu, Rui Qian, Minyue Jiang, Xiao Tan, Shilei Wen, Errui Ding,
Weiyao Lin and Dejing Dou
- Abstract要約: 自己教師付きクラス認識オブジェクトの定位を行うための2段階学習フレームワークを提案する。
我々は,無声オブジェクトをフィルタリングし,異なるクラスの音響オブジェクトの位置を指摘するのに,我々のモデルの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 87.42246194790467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discriminatively localizing sounding objects in cocktail-party, i.e., mixed
sound scenes, is commonplace for humans, but still challenging for machines. In
this paper, we propose a two-stage learning framework to perform
self-supervised class-aware sounding object localization. First, we propose to
learn robust object representations by aggregating the candidate sound
localization results in the single source scenes. Then, class-aware object
localization maps are generated in the cocktail-party scenarios by referring
the pre-learned object knowledge, and the sounding objects are accordingly
selected by matching audio and visual object category distributions, where the
audiovisual consistency is viewed as the self-supervised signal. Experimental
results in both realistic and synthesized cocktail-party videos demonstrate
that our model is superior in filtering out silent objects and pointing out the
location of sounding objects of different classes. Code is available at
https://github.com/DTaoo/Discriminative-Sounding-Objects-Localization.
- Abstract(参考訳): 混成音のシーンは人間にとって一般的な場所であるが、それでも機械にとっては難しい。
本稿では,自己教師付きクラス認識音像定位を行う2段階学習フレームワークを提案する。
まず,単一音源シーンにおける候補音像定位結果を集約することにより,ロバストな物体表現を学習することを提案する。
そして、予め学習したオブジェクト知識を参照して、カクテルパーティシナリオにおいて、クラス対応オブジェクトローカライズマップを生成し、オーディオと視覚オブジェクトのカテゴリ分布を一致させて音色オブジェクトを選択し、視聴覚的一貫性を自己教師付き信号とする。
実写と合成の両方のカクテルパーティービデオによる実験結果から, サイレントオブジェクトのフィルタリングや, 異なるクラスの音響オブジェクトの位置の指摘に優れたモデルが得られた。
コードはhttps://github.com/DTaoo/Discriminative-Sounding-Objects-Localizationで入手できる。
関連論文リスト
- Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics [26.473529162341837]
本稿では,データセットバイアスを克服するために,音声-視覚的インスタンス認識セグメンテーション手法を提案する。
提案手法は,まずオブジェクト分割ネットワークによって映像中の潜在的音像を位置決めし,その音像候補と所定の音声を関連付ける。
AVSベンチマークによる実験結果から,本手法は健全な物体に偏ることなく効果的に音響オブジェクトを分割できることが示されている。
論文 参考訳(メタデータ) (2023-07-31T12:56:30Z) - LISA: Localized Image Stylization with Audio via Implicit Neural
Representation [17.672008998994816]
LISA(Localized Image Stylization with Audio)という新しいフレームワークを提案する。
LISAは、オーディオ駆動のローカライズされたイメージスタイリングを実行する。
提案手法は,他の音声誘導方式よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-21T11:51:48Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Contrastive Learning of Global and Local Audio-Visual Representations [25.557229705149577]
グローバルな意味情報を必要とするタスクに一般化する音声視覚表現を学習するための多目的自己教師方式を提案する。
提案手法は,アクション・サウンド分類,口唇読解,ディープフェイク検出,音源定位など,下流の様々なシナリオで汎用的な映像表現を学習できることを示す。
論文 参考訳(メタデータ) (2021-04-07T07:35:08Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。