論文の概要: TACO: Training-free Sound Prompted Segmentation via Deep Audio-visual CO-factorization
- arxiv url: http://arxiv.org/abs/2412.01488v1
- Date: Mon, 02 Dec 2024 13:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:40:52.655796
- Title: TACO: Training-free Sound Prompted Segmentation via Deep Audio-visual CO-factorization
- Title(参考訳): TACO:Deep Audio-Viual Co-factorizationによる学習不要音の分節化
- Authors: Hugo Malard, Michel Olvera, Stephane Lathuiliere, Slim Essid,
- Abstract要約: 音声信号で聴く物体に対応する画像領域をセグメント化することを目的として,音声プロンプテッド・セグメンテーションの特定の課題に取り組む。
既存のアプローチの多くは、事前訓練されたモデルを微調整したり、タスク専用の追加モジュールをトレーニングすることでこの問題に対処している。
我々は、非負行列因子化(NMF)を利用した学習自由アプローチを採用し、事前学習されたモデルから音声と視覚の特徴を共ファクタし、共通の解釈可能な概念を明らかにする。
- 参考スコア(独自算出の注目度): 7.448652734290433
- License:
- Abstract: Large-scale pre-trained audio and image models demonstrate an unprecedented degree of generalization, making them suitable for a wide range of applications. Here, we tackle the specific task of sound-prompted segmentation, aiming to segment image regions corresponding to objects heard in an audio signal. Most existing approaches tackle this problem by fine-tuning pre-trained models or by training additional modules specifically for the task. We adopt a different strategy: we introduce a training-free approach that leverages Non-negative Matrix Factorization (NMF) to co-factorize audio and visual features from pre-trained models to reveal shared interpretable concepts. These concepts are passed to an open-vocabulary segmentation model for precise segmentation maps. By using frozen pre-trained models, our method achieves high generalization and establishes state-of-the-art performance in unsupervised sound-prompted segmentation, significantly surpassing previous unsupervised methods.
- Abstract(参考訳): 大規模な事前訓練されたオーディオおよび画像モデルは前例のない一般化の度合いを示し、幅広い用途に適している。
本稿では,音声信号で聴く物体に対応する画像領域をセグメント化することを目的とした,音声プロンプトセグメンテーションの具体的課題に取り組む。
既存のアプローチの多くは、事前訓練されたモデルを微調整したり、タスク専用の追加モジュールをトレーニングすることでこの問題に対処している。
我々は,非負行列因子化(NMF)を利用した学習自由アプローチを導入し,事前学習したモデルから音声と視覚の特徴を共ファクタし,共通の解釈可能な概念を明らかにする。
これらの概念は、正確なセグメンテーションマップのための開語彙セグメンテーションモデルに渡される。
凍結した事前学習モデルを用いることで,教師なし音声のセグメント化における最先端性能の確立を実現し,従来の教師なし手法をはるかに上回っている。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Audio-Visual Scene Classification Using A Transfer Learning Based Joint
Optimization Strategy [26.975596225131824]
AVSCタスクの入力として音響特徴と生画像を直接利用する共同トレーニングフレームワークを提案する。
具体的には、事前学習した画像モデルの底層をビジュアルエンコーダとして検索し、トレーニング中にシーン分類器と1D-CNNベースの音響エンコーダを共同で最適化する。
論文 参考訳(メタデータ) (2022-04-25T03:37:02Z) - Streaming end-to-end speech recognition with jointly trained neural
feature enhancement [20.86554979122057]
そこで本研究では,MoCha(Motonic Chunkwise Attention)を用いたストリーミングエンドツーエンド音声認識モデルを提案する。
GAEF(Gradual Application of Enhanced Features)とGREL(Gradual Reduction of Enhanced Loss)の2つのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2021-05-04T02:25:41Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。