論文の概要: Annotation-free Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2305.11019v4
- Date: Sat, 7 Oct 2023 07:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 12:47:29.190834
- Title: Annotation-free Audio-Visual Segmentation
- Title(参考訳): アノテーションフリーな視聴覚セグメンテーション
- Authors: Jinxiang Liu, Yu Wang, Chen Ju, Chaofan Ma, Ya Zhang, Weidi Xie
- Abstract要約: 追加の手動アノテーションを使わずにオーディオ・ビジュアル・タスクのための人工データを生成する新しいパイプラインを提案する。
既存の画像セグメンテーションとオーディオデータセットを活用し、画像とマスクのペアをカテゴリラベルを用いて対応するオーディオサンプルとマッチングする。
また,SAMA-AVSの軽量モデルを導入し,AVSタスクに事前訓練されたセグメントの任意のモデル(SAM)を適応させる。
- 参考スコア(独自算出の注目度): 46.42570058385209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of Audio-Visual Segmentation (AVS) is to localise the sounding
objects within visual scenes by accurately predicting pixel-wise segmentation
masks. To tackle the task, it involves a comprehensive consideration of both
the data and model aspects. In this paper, first, we initiate a novel pipeline
for generating artificial data for the AVS task without extra manual
annotations. We leverage existing image segmentation and audio datasets and
match the image-mask pairs with its corresponding audio samples using category
labels in segmentation datasets, that allows us to effortlessly compose (image,
audio, mask) triplets for training AVS models. The pipeline is annotation-free
and scalable to cover a large number of categories. Additionally, we introduce
a lightweight model SAMA-AVS which adapts the pre-trained segment anything
model~(SAM) to the AVS task. By introducing only a small number of trainable
parameters with adapters, the proposed model can effectively achieve adequate
audio-visual fusion and interaction in the encoding stage with vast majority of
parameters fixed. We conduct extensive experiments, and the results show our
proposed model remarkably surpasses other competing methods. Moreover, by using
the proposed model pretrained with our synthetic data, the performance on real
AVSBench data is further improved, achieving 83.17 mIoU on S4 subset and 66.95
mIoU on MS3 set. The project page is
https://jinxiang-liu.github.io/anno-free-AVS/.
- Abstract(参考訳): audio-visual segmentation(avs)の目的は、ピクセル単位でのセグメンテーションマスクを正確に予測することで、視覚シーン内の音響オブジェクトをローカライズすることである。
タスクに取り組むには、データとモデルの両方の側面を包括的に考慮する必要がある。
本稿ではまず,手書きのアノテーションを伴わずに,AVSタスクのための人工データを生成する新しいパイプラインを開始する。
既存の画像セグメンテーションとオーディオデータセットを利用し、画像マスクペアと対応するオーディオサンプルをセグメンテーションデータセットのカテゴリラベルを使ってマッチングすることで、avモデルのトレーニングのために(画像、オーディオ、マスク)トリプレットを無力に構成できる。
パイプラインは多くのカテゴリをカバーするために、アノテーションフリーでスケーラブルです。
さらに、AVSタスクに事前訓練されたセグメントの任意のモデル~(SAM)を適応させる軽量モデルSAMA-AVSを導入する。
アダプタを用いた少数のトレーニング可能なパラメータを導入することで,ほとんどのパラメータを固定した符号化段階において,適切な音声と視覚の融合と相互作用を効果的に実現できる。
実験の結果,提案手法が他の競合手法をはるかに上回る結果が得られた。
さらに,本合成データを用いて事前学習したモデルを用いて,実avsbenchデータの性能をさらに向上させ,s4サブセットでは83.17miou,ms3セットでは66.95miouを達成した。
プロジェクトページはhttps://jinxiang-liu.github.io/anno-free-AVS/。
関連論文リスト
- SAVE: Segment Audio-Visual Easy way using Segment Anything Model [0.0]
そこで本研究では,AVSタスクに対して,事前学習セグメントモデル(SAM)を効率的に適用するための軽量なアプローチSAVEを提案する。
提案手法は,符号化段階における効果的な音声と視覚の融合と相互作用を実現する。
論文 参考訳(メタデータ) (2024-07-02T07:22:28Z) - Unsupervised Audio-Visual Segmentation with Modality Alignment [42.613786372067814]
Audio-Visualは、特定の音を生成する視覚シーンのオブジェクトをピクセルレベルで識別することを目的としている。
現在のAVSメソッドは、コストのかかるマスクとオーディオのペアの細かいアノテーションに依存しているため、スケーラビリティには実用的ではない。
そこで本研究では,モダリティ対応アライメント(MoCA)と呼ばれる教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T07:56:09Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AV-SAM: Segment Anything Model Meets Audio-Visual Localization and
Segmentation [30.756247389435803]
Segment Anything Model (SAM)は、視覚的セグメンテーションタスクにおいて、その強力な効果を示した。
AV-SAMをベースとした,音声に対応する音質オブジェクトマスクを生成可能なフレームワークを提案する。
Flickr-SoundNet と AVSBench のデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-05-03T00:33:52Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。