論文の概要: Class-aware Sounding Objects Localization via Audiovisual Correspondence
- arxiv url: http://arxiv.org/abs/2112.11749v1
- Date: Wed, 22 Dec 2021 09:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 15:12:19.502775
- Title: Class-aware Sounding Objects Localization via Audiovisual Correspondence
- Title(参考訳): 聴覚対応によるクラス認識音像定位
- Authors: Di Hu, Yake Wei, Rui Qian, Weiyao Lin, Ruihua Song and Ji-Rong Wen
- Abstract要約: 複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
- 参考スコア(独自算出の注目度): 51.39872698365446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audiovisual scenes are pervasive in our daily life. It is commonplace for
humans to discriminatively localize different sounding objects but quite
challenging for machines to achieve class-aware sounding objects localization
without category annotations, i.e., localizing the sounding object and
recognizing its category. To address this problem, we propose a two-stage
step-by-step learning framework to localize and recognize sounding objects in
complex audiovisual scenarios using only the correspondence between audio and
vision. First, we propose to determine the sounding area via coarse-grained
audiovisual correspondence in the single source cases. Then visual features in
the sounding area are leveraged as candidate object representations to
establish a category-representation object dictionary for expressive visual
character extraction. We generate class-aware object localization maps in
cocktail-party scenarios and use audiovisual correspondence to suppress silent
areas by referring to this dictionary. Finally, we employ category-level
audiovisual consistency as the supervision to achieve fine-grained audio and
sounding object distribution alignment. Experiments on both realistic and
synthesized videos show that our model is superior in localizing and
recognizing objects as well as filtering out silent ones. We also transfer the
learned audiovisual network into the unsupervised object detection task,
obtaining reasonable performance.
- Abstract(参考訳): オーディオヴィジュアルなシーンは私たちの日常生活に広まります。
人間は異なる音の物体を識別的に局所化するのが一般的であるが、機械がカテゴリーアノテーションを使わずにクラス認識の音の物体を局所化するのは非常に困難である。
そこで本研究では,音声と視覚の対応のみを用いて,複雑な視覚シナリオにおける音像の局所化と認識を行う2段階学習フレームワークを提案する。
まず,単一音源の場合の粗粒度音響視覚対応により音域を決定することを提案する。
次に、聴覚領域の視覚特徴を候補オブジェクト表現として活用し、表現的視覚文字抽出のためのカテゴリ表現オブジェクト辞書を確立する。
カクテルパーティのシナリオでクラス対応オブジェクトローカライゼーションマップを生成し、この辞書を参照して、サイレント領域を抑制するためにオーディオビジュアル対応を使用する。
最後に、細粒度オーディオと音像分布アライメントを実現するために、カテゴリレベルのオーディオ視覚整合性を用いる。
実写ビデオと合成ビデオの両方で実験した結果、我々のモデルは、オブジェクトのローカライズと認識、そして無音ビデオのフィルタリングに優れていることがわかった。
また、学習したオーディオ視覚ネットワークを教師なしオブジェクト検出タスクに転送し、適切な性能を得る。
関連論文リスト
- Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics [26.473529162341837]
本稿では,データセットバイアスを克服するために,音声-視覚的インスタンス認識セグメンテーション手法を提案する。
提案手法は,まずオブジェクト分割ネットワークによって映像中の潜在的音像を位置決めし,その音像候補と所定の音声を関連付ける。
AVSベンチマークによる実験結果から,本手法は健全な物体に偏ることなく効果的に音響オブジェクトを分割できることが示されている。
論文 参考訳(メタデータ) (2023-07-31T12:56:30Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching [87.42246194790467]
自己教師付きクラス認識オブジェクトの定位を行うための2段階学習フレームワークを提案する。
我々は,無声オブジェクトをフィルタリングし,異なるクラスの音響オブジェクトの位置を指摘するのに,我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T05:51:55Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。