論文の概要: BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge
- arxiv url: http://arxiv.org/abs/2308.10175v1
- Date: Sun, 20 Aug 2023 06:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:08:17.323668
- Title: BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge
- Title(参考訳): BAVS:基礎知識の統合によるオーディオ・ビジュアルセグメンテーションのブートストラップ
- Authors: Chen Liu, Peike Li, Hu Zhang, Lincheng Li, Zi Huang, Dadong Wang, and
Xin Yu
- Abstract要約: 音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
- 参考スコア(独自算出の注目度): 43.92428145744478
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Given an audio-visual pair, audio-visual segmentation (AVS) aims to locate
sounding sources by predicting pixel-wise maps. Previous methods assume that
each sound component in an audio signal always has a visual counterpart in the
image. However, this assumption overlooks that off-screen sounds and background
noise often contaminate the audio recordings in real-world scenarios. They
impose significant challenges on building a consistent semantic mapping between
audio and visual signals for AVS models and thus impede precise sound
localization. In this work, we propose a two-stage bootstrapping audio-visual
segmentation framework by incorporating multi-modal foundation knowledge. In a
nutshell, our BAVS is designed to eliminate the interference of background
noise or off-screen sounds in segmentation by establishing the audio-visual
correspondences in an explicit manner. In the first stage, we employ a
segmentation model to localize potential sounding objects from visual data
without being affected by contaminated audio signals. Meanwhile, we also
utilize a foundation audio classification model to discern audio semantics.
Considering the audio tags provided by the audio foundation model are noisy,
associating object masks with audio tags is not trivial. Thus, in the second
stage, we develop an audio-visual semantic integration strategy (AVIS) to
localize the authentic-sounding objects. Here, we construct an audio-visual
tree based on the hierarchical correspondence between sounds and object
categories. We then examine the label concurrency between the localized objects
and classified audio tags by tracing the audio-visual tree. With AVIS, we can
effectively segment real-sounding objects. Extensive experiments demonstrate
the superiority of our method on AVS datasets, particularly in scenarios
involving background noise. Our project website is
https://yenanliu.github.io/AVSS.github.io/.
- Abstract(参考訳): オーディオと視覚のペアが与えられた場合、オーディオと視覚のセグメンテーション(AVS)は、ピクセルワイズマップを予測して音源を見つけることを目的としている。
従来の方法では、音声信号の各音成分が常に画像に視覚的に対応するものであると仮定している。
しかし、この仮定は、スクリーン外の音や背景ノイズが実際のシナリオでオーディオ録音を汚染することが多いことを見逃している。
AVSモデルの音声と視覚信号の一貫性のあるセマンティックマッピングを構築する上で、重要な課題を課し、正確な音像定位を阻害する。
本研究では,マルチモーダル基礎知識を取り入れた2段階の音声視覚分割フレームワークを提案する。
簡単に言えば、BAVSは、音声と視覚の対応を明示的に確立することにより、セグメント化における背景雑音やオフスクリーン音の干渉を取り除くように設計されている。
第1段階では、汚染された音声信号の影響を受けずに、視覚データから潜在的聴覚オブジェクトをローカライズするためにセグメンテーションモデルを用いる。
また,音声のセマンティクスを識別するために,基本音声分類モデルを用いる。
オーディオファウンデーションモデルが提供するオーディオタグはノイズが多いため、オブジェクトマスクとオーディオタグを関連付けることは簡単ではない。
そこで,第2段階では,音響-視覚的セマンティック統合戦略 (AVIS) を開発し,音像の局所化を行う。
そこで我々は,音と対象カテゴリーの階層的対応に基づく視覚木を構築する。
次に,局所化オブジェクトと分類音声タグとのラベルの並行性について,音声視覚木をトレースすることで検討する。
AVISでは、実音のオブジェクトを効果的にセグメント化できる。
大規模な実験により、AVSデータセット、特に背景雑音を含むシナリオにおいて、我々の手法が優れていることが示された。
プロジェクトのWebサイトはhttps://yenanliu.github.io/AVSS.github.io/です。
関連論文リスト
- LAVSS: Location-Guided Audio-Visual Spatial Audio Separation [52.44052357829296]
位置誘導型空間空間オーディオセパレータを提案する。
提案するLAVSSは,空間的オーディオと視覚的位置の相関に着想を得たものである。
さらに,事前学習したモノラル分離器を用いて,豊かなモノラル音からの知識を伝達し,空間的音声分離を促進する。
論文 参考訳(メタデータ) (2023-10-31T13:30:24Z) - Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics [26.473529162341837]
本稿では,データセットバイアスを克服するために,音声-視覚的インスタンス認識セグメンテーション手法を提案する。
提案手法は,まずオブジェクト分割ネットワークによって映像中の潜在的音像を位置決めし,その音像候補と所定の音声を関連付ける。
AVSベンチマークによる実験結果から,本手法は健全な物体に偏ることなく効果的に音響オブジェクトを分割できることが示されている。
論文 参考訳(メタデータ) (2023-07-31T12:56:30Z) - Transavs: End-To-End Audio-Visual Segmentation With Transformer [33.56539999875508]
本稿では,トランスフォーマーをベースとしたオーディオ・ビジュアルタスクのためのエンドツーエンドフレームワークであるTransAVSを提案する。
TransAVSはオーディオストリームをオーディオクエリとして切り離し、画像と対話し、セグメンテーションマスクにデコードする。
実験の結果,TransAVS は AVSBench データセット上で最先端の結果を得ることができた。
論文 参考訳(メタデータ) (2023-05-12T03:31:04Z) - Audio-Visual Segmentation with Semantics [45.5917563087477]
オーディオ・ビジュアル・セグメンテーション(AVS)と呼ばれる新しい問題を提案する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
AVSBench という,可聴ビデオ中のオブジェクトの音声に対する画素単位のアノテーションを提供する,最初の音声-視覚的セグメンテーションベンチマークを構築した。
論文 参考訳(メタデータ) (2023-01-30T18:53:32Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。