論文の概要: Annotation-free Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2305.11019v2
- Date: Fri, 19 May 2023 01:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 10:30:40.043298
- Title: Annotation-free Audio-Visual Segmentation
- Title(参考訳): アノテーションフリーな視聴覚セグメンテーション
- Authors: Jinxiang Liu, Yu Wang, Chen Ju, Chaofan Ma, Ya Zhang, Weidi Xie
- Abstract要約: 本稿では,Audio-Visualタスクのための人工データを生成するためのスケーラブルでアノテーションのないパイプラインを提案する。
既存の画像セグメンテーションとオーディオデータセットを利用して、カテゴリラベル、画像-マスクペア、オーディオサンプル間のリンクを描画する。
このアーキテクチャにより、モデルは音声信号の誘導により、音を鳴らす物体を探索することができる。
- 参考スコア(独自算出の注目度): 30.874092009241984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of Audio-Visual Segmentation (AVS) is to locate sounding
objects within visual scenes by accurately predicting pixelwise segmentation
masks. In this paper, we present the following contributions: (i), we propose a
scalable and annotation-free pipeline for generating artificial data for the
AVS task. We leverage existing image segmentation and audio datasets to draw
links between category labels, image-mask pairs, and audio samples, which
allows us to easily compose (image, audio, mask) triplets for training AVS
models; (ii), we introduce a novel Audio-Aware Transformer (AuTR) architecture
that features an audio-aware query-based transformer decoder. This architecture
enables the model to search for sounding objects with the guidance of audio
signals, resulting in more accurate segmentation; (iii), we present extensive
experiments conducted on both synthetic and real datasets, which demonstrate
the effectiveness of training AVS models with synthetic data generated by our
proposed pipeline. Additionally, our proposed AuTR architecture exhibits
superior performance and strong generalization ability on public benchmarks.
The project page is https://jinxiang-liu.github.io/anno-free-AVS/.
- Abstract(参考訳): オーディオ・ビジュアルセグメンテーション(avs)の目的は、ピクセル毎のセグメンテーションマスクを正確に予測することで、視覚シーン内の聴覚物体を探索することである。
本稿では,以下の貢献について述べる。
i) AVSタスクのための人工データを生成するためのスケーラブルでアノテーションのないパイプラインを提案する。
既存のイメージセグメンテーションとオーディオデータセットを活用して、カテゴリラベル、イメージマスクペア、オーディオサンプル間のリンクを描画することで、AVSモデルをトレーニングするための(画像、オーディオ、マスク)トリプルを簡単に作成することができます。
(ii)我々は,オーディオアウェアなクエリベースのトランスフォーマデコーダを備えた,新しいオーディオアウェアトランスフォーマ(autr)アーキテクチャを導入する。
このアーキテクチャにより、モデルは音声信号の誘導により音声オブジェクトを探索し、より正確なセグメンテーションを行うことができる。
(iii) 提案するパイプラインで生成された合成データを用いたavsモデルの訓練の有効性を示す,合成データと実データの両方について広範な実験を行った。
さらに,提案したAuTRアーキテクチャは,公開ベンチマークにおいて優れた性能と強力な一般化能力を示す。
プロジェクトページはhttps://jinxiang-liu.github.io/anno-free-AVS/。
関連論文リスト
- SAVE: Segment Audio-Visual Easy way using Segment Anything Model [0.0]
そこで本研究では,AVSタスクに対して,事前学習セグメントモデル(SAM)を効率的に適用するための軽量なアプローチSAVEを提案する。
提案手法は,符号化段階における効果的な音声と視覚の融合と相互作用を実現する。
論文 参考訳(メタデータ) (2024-07-02T07:22:28Z) - Unsupervised Audio-Visual Segmentation with Modality Alignment [42.613786372067814]
Audio-Visualは、特定の音を生成する視覚シーンのオブジェクトをピクセルレベルで識別することを目的としている。
現在のAVSメソッドは、コストのかかるマスクとオーディオのペアの細かいアノテーションに依存しているため、スケーラビリティには実用的ではない。
そこで本研究では,モダリティ対応アライメント(MoCA)と呼ばれる教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T07:56:09Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AV-SAM: Segment Anything Model Meets Audio-Visual Localization and
Segmentation [30.756247389435803]
Segment Anything Model (SAM)は、視覚的セグメンテーションタスクにおいて、その強力な効果を示した。
AV-SAMをベースとした,音声に対応する音質オブジェクトマスクを生成可能なフレームワークを提案する。
Flickr-SoundNet と AVSBench のデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-05-03T00:33:52Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。