論文の概要: Leveraging Foundation models for Unsupervised Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2309.06728v1
- Date: Wed, 13 Sep 2023 05:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 15:21:04.055298
- Title: Leveraging Foundation models for Unsupervised Audio-Visual Segmentation
- Title(参考訳): 教師なし視聴覚セグメンテーションのための基礎モデル活用
- Authors: Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Xiatian Zhu
- Abstract要約: AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
- 参考スコア(独自算出の注目度): 49.94366155560371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-Visual Segmentation (AVS) aims to precisely outline audible objects in
a visual scene at the pixel level. Existing AVS methods require fine-grained
annotations of audio-mask pairs in supervised learning fashion. This limits
their scalability since it is time consuming and tedious to acquire such
cross-modality pixel level labels. To overcome this obstacle, in this work we
introduce unsupervised audio-visual segmentation with no need for task-specific
data annotations and model training. For tackling this newly proposed problem,
we formulate a novel Cross-Modality Semantic Filtering (CMSF) approach to
accurately associate the underlying audio-mask pairs by leveraging the
off-the-shelf multi-modal foundation models (e.g., detection [1], open-world
segmentation [2] and multi-modal alignment [3]). Guiding the proposal
generation by either audio or visual cues, we design two training-free
variants: AT-GDINO-SAM and OWOD-BIND. Extensive experiments on the AVS-Bench
dataset show that our unsupervised approach can perform well in comparison to
prior art supervised counterparts across complex scenarios with multiple
auditory objects. Particularly, in situations where existing supervised AVS
methods struggle with overlapping foreground objects, our models still excel in
accurately segmenting overlapped auditory objects. Our code will be publicly
released.
- Abstract(参考訳): audio-visual segmentation (avs) は、ピクセルレベルで視覚シーン内の可聴物体を正確にアウトラインすることを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
このようなクロスモダリティなピクセルレベルラベルを取得するのに時間がかかるため、スケーラビリティが制限される。
この課題を克服するため,本研究ではタスク固有のデータアノテーションやモデルトレーニングを必要とせず,教師なしの視聴覚セグメンテーションを導入する。
そこで本研究では,本研究で提案するマルチモーダル基礎モデル(検出 [1],オープンワールドセグメンテーション [2],マルチモーダルアライメント [3] など)を用いて,基礎となる音声マスクペアを正確に関連付けるための新しいクロスモーダリティ意味フィルタリング(cmsf)手法を提案する。
音声と視覚の両方による提案生成を指導し、AT-GDINO-SAMとOWOD-BINDの2つのトレーニング不要な派生案を設計する。
avs-benchデータセットに関する広範囲な実験により、複数の聴覚対象を持つ複雑なシナリオを横断する先行技術に比べて、教師なしアプローチが良好に機能することが示された。
特に既存のavs法が重なり合う前景の物体に支障をきたす状況では,重なり合った聴覚物体を正確に分割するモデルが優れている。
私たちのコードは公開されます。
関連論文リスト
- Weakly-Supervised Audio-Visual Segmentation [44.632423828359315]
Weakly-Supervised Audio-Visual framework,すなわちWS-AVSを提案する。
AVSBenchの実験は、単一ソースおよびマルチソースシナリオの弱い教師付きオーディオ視覚セグメント化におけるWS-AVSの有効性を実証している。
論文 参考訳(メタデータ) (2023-11-25T17:18:35Z) - Towards Robust Audiovisual Segmentation in Complex Environments with
Quantization-based Semantic Decomposition [49.465783009753885]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - AVSegFormer: Audio-Visual Segmentation with Transformer [42.24135756439358]
ビデオ中の音声オブジェクトの特定とセグメント化を目的とした,AVS(Audio-visual segmentation)タスクが導入された。
このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とし、重大な課題を提起する。
本稿では,トランスフォーマーアーキテクチャを活用するAVSegFormerを提案する。
論文 参考訳(メタデータ) (2023-07-03T16:37:10Z) - Annotation-free Audio-Visual Segmentation [46.42570058385209]
追加の手動アノテーションを使わずにオーディオ・ビジュアル・タスクのための人工データを生成する新しいパイプラインを提案する。
既存の画像セグメンテーションとオーディオデータセットを活用し、画像とマスクのペアをカテゴリラベルを用いて対応するオーディオサンプルとマッチングする。
また,SAMA-AVSの軽量モデルを導入し,AVSタスクに事前訓練されたセグメントの任意のモデル(SAM)を適応させる。
論文 参考訳(メタデータ) (2023-05-18T14:52:45Z) - Multi-Granularity Denoising and Bidirectional Alignment for Weakly
Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。
MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文 参考訳(メタデータ) (2023-05-09T03:33:43Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - DETA: Denoised Task Adaptation for Few-Shot Learning [135.96805271128645]
数ショット学習におけるテスト時間タスク適応は、訓練済みのタスク非依存モデルに適応してタスク固有の知識を取得することを目的としている。
少数のサンプルしか得られないため、支持試料からのイメージノイズ(Xノイズ)またはラベルノイズ(Yノイズ)の悪影響を著しく増幅することができる。
Denoized Task Adaptation (DETA) は、既存のタスク適応アプローチに対して、最初に統合された画像とラベルをデノベートするフレームワークである。
論文 参考訳(メタデータ) (2023-03-11T05:23:20Z) - Modality-Aware Contrastive Instance Learning with Self-Distillation for
Weakly-Supervised Audio-Visual Violence Detection [14.779452690026144]
弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。
我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
論文 参考訳(メタデータ) (2022-07-12T12:42:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。