論文の概要: SAVE: Segment Audio-Visual Easy way using Segment Anything Model
- arxiv url: http://arxiv.org/abs/2407.02004v2
- Date: Wed, 3 Jul 2024 23:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 12:21:54.769182
- Title: SAVE: Segment Audio-Visual Easy way using Segment Anything Model
- Title(参考訳): SAVE:Segment Anything Modelを用いたSegment Audio-Visual Easy Way
- Authors: Khanh-Binh Nguyen, Chae Jung Park,
- Abstract要約: そこで本研究では,AVSタスクに対して,事前学習セグメントモデル(SAM)を効率的に適用するための軽量なアプローチSAVEを提案する。
提案手法は,符号化段階における効果的な音声と視覚の融合と相互作用を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The primary aim of Audio-Visual Segmentation (AVS) is to precisely identify and locate auditory elements within visual scenes by accurately predicting segmentation masks at the pixel level. Achieving this involves comprehensively considering data and model aspects to address this task effectively. This study presents a lightweight approach, SAVE, which efficiently adapts the pre-trained segment anything model (SAM) to the AVS task. By incorporating an image encoder adapter into the transformer blocks to better capture the distinct dataset information and proposing a residual audio encoder adapter to encode the audio features as a sparse prompt, our proposed model achieves effective audio-visual fusion and interaction during the encoding stage. Our proposed method accelerates the training and inference speed by reducing the input resolution from 1024 to 256 pixels while achieving higher performance compared with the previous SOTA. Extensive experimentation validates our approach, demonstrating that our proposed model outperforms other SOTA methods significantly. Moreover, leveraging the pre-trained model on synthetic data enhances performance on real AVSBench data, achieving 84.59 mIoU on the S4 (V1S) subset and 70.28 mIoU on the MS3 (V1M) set with only 256 pixels for input images. This increases up to 86.16 mIoU on the S4 (V1S) and 70.83 mIoU on the MS3 (V1M) with inputs of 1024 pixels.
- Abstract(参考訳): オーディオ・ビジュアル・セグメンテーション(AVS)の主な目的は、ピクセルレベルでのセグメンテーション・マスクを正確に予測することにより、視覚シーン内の聴覚要素を正確に識別し、特定することである。
これを達成するには、このタスクに効果的に対処するために、データとモデルの側面を包括的に考慮する必要がある。
本研究は,AVSタスクに対して,事前訓練されたセグメントアプライスモデル(SAM)を効率的に適応する軽量なアプローチSAVEを提案する。
画像エンコーダアダプタをトランスフォーマブロックに組み込んで、異なるデータセット情報をよりよくキャプチャし、音声特徴をスパースプロンプトとしてエンコードする残差オーディオエンコーダアダプタを提案することにより、符号化段階における効果的なオーディオ-視覚融合と相互作用を実現する。
提案手法は,入力解像度を1024から256ピクセルに削減し,従来のSOTAと比較して高い性能を実現し,トレーニングと推論速度を高速化する。
大規模な実験により,提案手法が他のSOTA法よりも優れていることを示す。
さらに、合成データに事前トレーニングされたモデルを利用することで、実際のAVSBenchデータの性能が向上し、S4(V1S)サブセットで84.59 mIoU、入力画像に256ピクセルしか持たないMS3(V1M)セットで70.28 mIoUが達成される。
これにより、S4(V1S)では86.16 mIoU、MS3(V1M)では70.83 mIoUまで増加し、入力は1024ピクセルである。
関連論文リスト
- VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文 参考訳(メタデータ) (2024-04-30T15:49:03Z) - Unsupervised Audio-Visual Segmentation with Modality Alignment [42.613786372067814]
Audio-Visualは、特定の音を生成する視覚シーンのオブジェクトをピクセルレベルで識別することを目的としている。
現在のAVSメソッドは、コストのかかるマスクとオーディオのペアの細かいアノテーションに依存しているため、スケーラビリティには実用的ではない。
そこで本研究では,モダリティ対応アライメント(MoCA)と呼ばれる教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T07:56:09Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Annotation-free Audio-Visual Segmentation [46.42570058385209]
追加の手動アノテーションを使わずにオーディオ・ビジュアル・タスクのための人工データを生成する新しいパイプラインを提案する。
既存の画像セグメンテーションとオーディオデータセットを活用し、画像とマスクのペアをカテゴリラベルを用いて対応するオーディオサンプルとマッチングする。
また,SAMA-AVSの軽量モデルを導入し,AVSタスクに事前訓練されたセグメントの任意のモデル(SAM)を適応させる。
論文 参考訳(メタデータ) (2023-05-18T14:52:45Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。