論文の概要: AV-SAM: Segment Anything Model Meets Audio-Visual Localization and
Segmentation
- arxiv url: http://arxiv.org/abs/2305.01836v1
- Date: Wed, 3 May 2023 00:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 16:21:45.115941
- Title: AV-SAM: Segment Anything Model Meets Audio-Visual Localization and
Segmentation
- Title(参考訳): av-sam: segment anythingモデルによる視聴覚定位とセグメンテーション
- Authors: Shentong Mo, Yapeng Tian
- Abstract要約: Segment Anything Model (SAM)は、視覚的セグメンテーションタスクにおいて、その強力な効果を示した。
AV-SAMをベースとした,音声に対応する音質オブジェクトマスクを生成可能なフレームワークを提案する。
Flickr-SoundNet と AVSBench のデータセットについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 30.756247389435803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Model (SAM) has recently shown its powerful effectiveness in
visual segmentation tasks. However, there is less exploration concerning how
SAM works on audio-visual tasks, such as visual sound localization and
segmentation. In this work, we propose a simple yet effective audio-visual
localization and segmentation framework based on the Segment Anything Model,
namely AV-SAM, that can generate sounding object masks corresponding to the
audio. Specifically, our AV-SAM simply leverages pixel-wise audio-visual fusion
across audio features and visual features from the pre-trained image encoder in
SAM to aggregate cross-modal representations. Then, the aggregated cross-modal
features are fed into the prompt encoder and mask decoder to generate the final
audio-visual segmentation masks. We conduct extensive experiments on
Flickr-SoundNet and AVSBench datasets. The results demonstrate that the
proposed AV-SAM can achieve competitive performance on sounding object
localization and segmentation.
- Abstract(参考訳): Segment Anything Model (SAM) は視覚的セグメンテーションにおける強力な効果を示した。
しかし、サムが視覚的な音像の定位やセグメンテーションといった視聴覚タスクでどのように働くかについての探究は少ない。
本研究では,音声に対応する音像マスクを生成可能なセグメンション・アロシング・モデル(AV-SAM)に基づく,シンプルで効果的な音声-視覚的局所化とセグメンテーション・フレームワークを提案する。
具体的には、AV-SAMは、SAMの事前学習画像エンコーダからオーディオ機能と視覚機能にまたがる画素ワイドオーディオ-視覚融合を利用して、クロスモーダル表現を集約する。
そして、集約されたクロスモーダル特徴をプロンプトエンコーダとマスクデコーダに入力し、最終的なオーディオ視覚分割マスクを生成する。
Flickr-SoundNet と AVSBench のデータセットについて広範な実験を行った。
その結果,提案したAV-SAMは音像定位とセグメンテーションの競争性能を向上できることを示した。
関連論文リスト
- Extending Segment Anything Model into Auditory and Temporal Dimensions for Audio-Visual Segmentation [17.123212921673176]
本稿では,SAMのエンコーダとマスクデコーダの中間部分に組み込まれた時空間バイビジュアルアテンション(ST-B)モジュールを提案する。
ビデオフレームとオーディオストリーム間の時間的対応を伝達するために、オーディオ視覚機能を適応的に更新する。
提案手法は, AVSベンチマークの最先端手法, 特に8.3% mIoU が, 挑戦的なマルチソースサブセットよりも優れている。
論文 参考訳(メタデータ) (2024-06-10T10:53:23Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - Weakly-Supervised Audio-Visual Segmentation [44.632423828359315]
Weakly-Supervised Audio-Visual framework,すなわちWS-AVSを提案する。
AVSBenchの実験は、単一ソースおよびマルチソースシナリオの弱い教師付きオーディオ視覚セグメント化におけるWS-AVSの有効性を実証している。
論文 参考訳(メタデータ) (2023-11-25T17:18:35Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics [26.473529162341837]
本稿では,データセットバイアスを克服するために,音声-視覚的インスタンス認識セグメンテーション手法を提案する。
提案手法は,まずオブジェクト分割ネットワークによって映像中の潜在的音像を位置決めし,その音像候補と所定の音声を関連付ける。
AVSベンチマークによる実験結果から,本手法は健全な物体に偏ることなく効果的に音響オブジェクトを分割できることが示されている。
論文 参考訳(メタデータ) (2023-07-31T12:56:30Z) - Annotation-free Audio-Visual Segmentation [46.42570058385209]
追加の手動アノテーションを使わずにオーディオ・ビジュアル・タスクのための人工データを生成する新しいパイプラインを提案する。
既存の画像セグメンテーションとオーディオデータセットを活用し、画像とマスクのペアをカテゴリラベルを用いて対応するオーディオサンプルとマッチングする。
また,SAMA-AVSの軽量モデルを導入し,AVSタスクに事前訓練されたセグメントの任意のモデル(SAM)を適応させる。
論文 参考訳(メタデータ) (2023-05-18T14:52:45Z) - Transavs: End-To-End Audio-Visual Segmentation With Transformer [33.56539999875508]
本稿では,トランスフォーマーをベースとしたオーディオ・ビジュアルタスクのためのエンドツーエンドフレームワークであるTransAVSを提案する。
TransAVSはオーディオストリームをオーディオクエリとして切り離し、画像と対話し、セグメンテーションマスクにデコードする。
実験の結果,TransAVS は AVSBench データセット上で最先端の結果を得ることができた。
論文 参考訳(メタデータ) (2023-05-12T03:31:04Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。