論文の概要: Unsupervised Audio-Visual Segmentation with Modality Alignment
- arxiv url: http://arxiv.org/abs/2403.14203v1
- Date: Thu, 21 Mar 2024 07:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 15:07:37.458809
- Title: Unsupervised Audio-Visual Segmentation with Modality Alignment
- Title(参考訳): モダリティアライメントを用いた教師なしオーディオ・ビジュアルセグメンテーション
- Authors: Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiangkang Deng, Xiatian Zhu,
- Abstract要約: Audio-Visualは、特定の音を生成する視覚シーンのオブジェクトをピクセルレベルで識別することを目的としている。
現在のAVSメソッドは、コストのかかるマスクとオーディオのペアの細かいアノテーションに依存しているため、スケーラビリティには実用的ではない。
そこで本研究では,モダリティ対応アライメント(MoCA)と呼ばれる教師なし学習手法を提案する。
- 参考スコア(独自算出の注目度): 42.613786372067814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-Visual Segmentation (AVS) aims to identify, at the pixel level, the object in a visual scene that produces a given sound. Current AVS methods rely on costly fine-grained annotations of mask-audio pairs, making them impractical for scalability. To address this, we introduce unsupervised AVS, eliminating the need for such expensive annotation. To tackle this more challenging problem, we propose an unsupervised learning method, named Modality Correspondence Alignment (MoCA), which seamlessly integrates off-the-shelf foundation models like DINO, SAM, and ImageBind. This approach leverages their knowledge complementarity and optimizes their joint usage for multi-modality association. Initially, we estimate positive and negative image pairs in the feature space. For pixel-level association, we introduce an audio-visual adapter and a novel pixel matching aggregation strategy within the image-level contrastive learning framework. This allows for a flexible connection between object appearance and audio signal at the pixel level, with tolerance to imaging variations such as translation and rotation. Extensive experiments on the AVSBench (single and multi-object splits) and AVSS datasets demonstrate that our MoCA outperforms strongly designed baseline methods and approaches supervised counterparts, particularly in complex scenarios with multiple auditory objects. Notably when comparing mIoU, MoCA achieves a substantial improvement over baselines in both the AVSBench (S4: +17.24%; MS3: +67.64%) and AVSS (+19.23%) audio-visual segmentation challenges.
- Abstract(参考訳): オーディオ・ビジュアル・セグメンテーション (AVS) は、特定の音を生成する視覚シーンの物体をピクセルレベルで識別することを目的としている。
現在のAVSメソッドは、コストのかかるマスクとオーディオのペアの細かいアノテーションに依存しているため、スケーラビリティには実用的ではない。
これを解決するために,教師なしのAVSを導入し,そのような高価なアノテーションの必要性を排除した。
この課題に対処するために,DINO,SAM,ImageBindといった既成の基盤モデルをシームレスに統合したMoCA(Modality Cor correspondence Alignment)という,教師なし学習手法を提案する。
このアプローチは知識の相補性を生かし、マルチモダリティアソシエーションのための共同使用を最適化する。
まず,特徴空間における正像対と負像対を推定する。
画素レベルのアソシエーションには、画像レベルのコントラスト学習フレームワーク内に、オーディオ・ビジュアル・アダプタと、新しい画素マッチング・アグリゲーション戦略を導入する。
これにより、オブジェクトの外観と音声信号のピクセルレベルでのフレキシブルな接続が可能になり、変換や回転のような画像のバリエーションに耐性がある。
AVSBench(シングルとマルチオブジェクトの分割)とAVSSデータセットの大規模な実験により、MOCAは、特に複数の聴覚オブジェクトを持つ複雑なシナリオにおいて、強く設計されたベースラインメソッドと教師付きアプローチよりも優れています。
特にmIoUと比較すると、MoCAはAVSBench (S4: +17.24%; MS3: +67.64%) とAVSS (+19.23%) の両方でベースラインを大幅に改善している。
関連論文リスト
- AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文 参考訳(メタデータ) (2025-01-14T03:20:20Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation [26.85397648493918]
マルチオーダーバイラテラルレラティオンの協調のための頭字語であるCOMBOを提案する。
AVS内における3種類の左右の絡み合い(画素の絡み合い、モダリティの絡み合い、時間的絡み合い)を初めて検討した。
AVSBench-objectとAVSBench-semanticデータセットの実験とアブレーション研究は、COMBOが従来の最先端の手法を上回ることを示した。
論文 参考訳(メタデータ) (2023-12-11T15:51:38Z) - Weakly-Supervised Audio-Visual Segmentation [44.632423828359315]
Weakly-Supervised Audio-Visual framework,すなわちWS-AVSを提案する。
AVSBenchの実験は、単一ソースおよびマルチソースシナリオの弱い教師付きオーディオ視覚セグメント化におけるWS-AVSの有効性を実証している。
論文 参考訳(メタデータ) (2023-11-25T17:18:35Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Annotation-free Audio-Visual Segmentation [46.42570058385209]
追加の手動アノテーションを使わずにオーディオ・ビジュアル・タスクのための人工データを生成する新しいパイプラインを提案する。
既存の画像セグメンテーションとオーディオデータセットを活用し、画像とマスクのペアをカテゴリラベルを用いて対応するオーディオサンプルとマッチングする。
また,SAMA-AVSの軽量モデルを導入し,AVSタスクに事前訓練されたセグメントの任意のモデル(SAM)を適応させる。
論文 参考訳(メタデータ) (2023-05-18T14:52:45Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。