論文の概要: Hearing and Seeing Through CLIP: A Framework for Self-Supervised Sound Source Localization
- arxiv url: http://arxiv.org/abs/2505.05343v1
- Date: Thu, 08 May 2025 15:32:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.93826
- Title: Hearing and Seeing Through CLIP: A Framework for Self-Supervised Sound Source Localization
- Title(参考訳): CLIPによる聴覚と視認: 自己監督型音源定位のためのフレームワーク
- Authors: Sooyoung Park, Arda Senocak, Joon Son Chung,
- Abstract要約: 音声をCLIPのテキストエンコーダと互換性のあるトークンにマッピングするフレームワークを導入する。
これらの埋め込みは、聴覚領域マスクを生成するために使用され、そこから視覚的特徴を抽出し、オーディオ埋め込みと整合させる。
その結果,事前学習したマルチモーダル基礎モデルのアライメント知識により,より完全かつコンパクトな音像定位を生成できることがわかった。
- 参考スコア(独自算出の注目度): 17.234696376137677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale vision-language models demonstrate strong multimodal alignment and generalization across diverse tasks. Among them, CLIP stands out as one of the most successful approaches. In this work, we extend the application of CLIP to sound source localization, proposing a self-supervised method operates without explicit text input. We introduce a framework that maps audios into tokens compatible with CLIP's text encoder, producing audio-driven embeddings. These embeddings are used to generate sounding region masks, from which visual features are extracted and aligned with the audio embeddings through a contrastive audio-visual correspondence objective. Our findings show that alignment knowledge of pre-trained multimodal foundation model enables our method to generate more complete and compact localization for sounding objects. We further propose an LLM-guided extension that distills object-aware audio-visual scene understanding into the model during training to enhance alignment. Extensive experiments across five diverse tasks demonstrate that our method, in all variants, outperforms state-of-the-art approaches and achieves strong generalization in zero-shot settings.
- Abstract(参考訳): 大規模視覚言語モデルは、多様なタスクにまたがる強力なマルチモーダルアライメントと一般化を示す。
その中でもCLIPは、最も成功したアプローチの1つとして際立っている。
本研究では,CLIPの音源定位への応用を拡張し,明示的なテキスト入力を伴わない自己教師型手法を提案する。
音声をCLIPのテキストエンコーダと互換性のあるトークンにマッピングするフレームワークを導入する。
これらの埋め込みは、聴覚領域マスクを生成するために使用され、視覚的特徴を抽出し、コントラスト的な音声-視覚対応目的を通してオーディオ埋め込みと整合する。
その結果,事前学習したマルチモーダル基礎モデルのアライメント知識により,より完全かつコンパクトな音像定位を生成できることがわかった。
さらに、トレーニング中にオブジェクト認識型音声視覚シーン理解をモデルに蒸留し、アライメントを高めるLLM誘導拡張を提案する。
5つの多種多様なタスクにわたる大規模な実験により、我々の手法は、すべての変種において、最先端のアプローチよりも優れ、ゼロショット設定において強力な一般化を実現することを示した。
関連論文リスト
- T-VSL: Text-Guided Visual Sound Source Localization in Mixtures [33.28678401737415]
マルチソース・ミックスからオーディオ・ビジュアル・ソース・コンパレンスをアンタングルするフレームワークを開発する。
我々のフレームワークは、テスト期間中に見つからないクラスに対して、ゼロショットの転送可能性を示す。
MUSIC、VGGSound、VGGSound-Instrumentsデータセットで実施された実験は、最先端の手法よりも大幅に性能が向上したことを示している。
論文 参考訳(メタデータ) (2024-04-02T09:07:05Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Can CLIP Help Sound Source Localization? [19.370071553914954]
音声信号をCLIPのテキストエンコーダと互換性のあるトークンに変換するフレームワークを提案する。
これらの埋め込みを直接利用することにより,提案手法は提供音声のための音声グラウンドマスクを生成する。
この結果から,事前学習した画像テキストモデルを用いることで,より完全でコンパクトな音像定位写像を生成できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-07T15:26:57Z) - Prompting Segmentation with Sound Is Generalizable Audio-Visual Source
Localizer [22.846623384472377]
本稿では,アンコーダ-プロンプト-デコーダのパラダイムを導入し,融合したオーディオ視覚機能からローカライゼーションをデコードする。
具体的には,まずセマンティック・アウェア・オーディオ・プロンプト (SAP) の構築について提案する。
我々は,視覚基盤モデルの適切な知識を維持しつつ,最小限のトレーニング努力を維持するための相関適応器(ColA)を開発した。
論文 参考訳(メタデータ) (2023-09-13T05:43:35Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。