論文の概要: BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge
- arxiv url: http://arxiv.org/abs/2308.10175v1
- Date: Sun, 20 Aug 2023 06:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:08:17.323668
- Title: BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge
- Title(参考訳): BAVS:基礎知識の統合によるオーディオ・ビジュアルセグメンテーションのブートストラップ
- Authors: Chen Liu, Peike Li, Hu Zhang, Lincheng Li, Zi Huang, Dadong Wang, and
Xin Yu
- Abstract要約: 音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
- 参考スコア(独自算出の注目度): 43.92428145744478
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Given an audio-visual pair, audio-visual segmentation (AVS) aims to locate
sounding sources by predicting pixel-wise maps. Previous methods assume that
each sound component in an audio signal always has a visual counterpart in the
image. However, this assumption overlooks that off-screen sounds and background
noise often contaminate the audio recordings in real-world scenarios. They
impose significant challenges on building a consistent semantic mapping between
audio and visual signals for AVS models and thus impede precise sound
localization. In this work, we propose a two-stage bootstrapping audio-visual
segmentation framework by incorporating multi-modal foundation knowledge. In a
nutshell, our BAVS is designed to eliminate the interference of background
noise or off-screen sounds in segmentation by establishing the audio-visual
correspondences in an explicit manner. In the first stage, we employ a
segmentation model to localize potential sounding objects from visual data
without being affected by contaminated audio signals. Meanwhile, we also
utilize a foundation audio classification model to discern audio semantics.
Considering the audio tags provided by the audio foundation model are noisy,
associating object masks with audio tags is not trivial. Thus, in the second
stage, we develop an audio-visual semantic integration strategy (AVIS) to
localize the authentic-sounding objects. Here, we construct an audio-visual
tree based on the hierarchical correspondence between sounds and object
categories. We then examine the label concurrency between the localized objects
and classified audio tags by tracing the audio-visual tree. With AVIS, we can
effectively segment real-sounding objects. Extensive experiments demonstrate
the superiority of our method on AVS datasets, particularly in scenarios
involving background noise. Our project website is
https://yenanliu.github.io/AVSS.github.io/.
- Abstract(参考訳): オーディオと視覚のペアが与えられた場合、オーディオと視覚のセグメンテーション(AVS)は、ピクセルワイズマップを予測して音源を見つけることを目的としている。
従来の方法では、音声信号の各音成分が常に画像に視覚的に対応するものであると仮定している。
しかし、この仮定は、スクリーン外の音や背景ノイズが実際のシナリオでオーディオ録音を汚染することが多いことを見逃している。
AVSモデルの音声と視覚信号の一貫性のあるセマンティックマッピングを構築する上で、重要な課題を課し、正確な音像定位を阻害する。
本研究では,マルチモーダル基礎知識を取り入れた2段階の音声視覚分割フレームワークを提案する。
簡単に言えば、BAVSは、音声と視覚の対応を明示的に確立することにより、セグメント化における背景雑音やオフスクリーン音の干渉を取り除くように設計されている。
第1段階では、汚染された音声信号の影響を受けずに、視覚データから潜在的聴覚オブジェクトをローカライズするためにセグメンテーションモデルを用いる。
また,音声のセマンティクスを識別するために,基本音声分類モデルを用いる。
オーディオファウンデーションモデルが提供するオーディオタグはノイズが多いため、オブジェクトマスクとオーディオタグを関連付けることは簡単ではない。
そこで,第2段階では,音響-視覚的セマンティック統合戦略 (AVIS) を開発し,音像の局所化を行う。
そこで我々は,音と対象カテゴリーの階層的対応に基づく視覚木を構築する。
次に,局所化オブジェクトと分類音声タグとのラベルの並行性について,音声視覚木をトレースすることで検討する。
AVISでは、実音のオブジェクトを効果的にセグメント化できる。
大規模な実験により、AVSデータセット、特に背景雑音を含むシナリオにおいて、我々の手法が優れていることが示された。
プロジェクトのWebサイトはhttps://yenanliu.github.io/AVSS.github.io/です。
関連論文リスト
- Can Textual Semantics Mitigate Sounding Object Segmentation Preference? [10.368382203643739]
音声は視覚に比べて頑健な意味論が欠如しており、視覚空間上での音声誘導の弱さをもたらすと我々は主張する。
テキストのモダリティがよく探求され、豊富な抽象的意味論を含むという事実に触発され、視覚シーンからのテキストキューを活用して音声誘導を強化することを提案する。
本手法は,3つのサブセットすべてに対して高い競争性能を達成し,テキストキューに助けられた場合の音声に対する感度の向上を示す。
論文 参考訳(メタデータ) (2024-07-15T17:45:20Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics [26.473529162341837]
本稿では,データセットバイアスを克服するために,音声-視覚的インスタンス認識セグメンテーション手法を提案する。
提案手法は,まずオブジェクト分割ネットワークによって映像中の潜在的音像を位置決めし,その音像候補と所定の音声を関連付ける。
AVSベンチマークによる実験結果から,本手法は健全な物体に偏ることなく効果的に音響オブジェクトを分割できることが示されている。
論文 参考訳(メタデータ) (2023-07-31T12:56:30Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Audio-Visual Segmentation with Semantics [45.5917563087477]
オーディオ・ビジュアル・セグメンテーション(AVS)と呼ばれる新しい問題を提案する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
AVSBench という,可聴ビデオ中のオブジェクトの音声に対する画素単位のアノテーションを提供する,最初の音声-視覚的セグメンテーションベンチマークを構築した。
論文 参考訳(メタデータ) (2023-01-30T18:53:32Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。