論文の概要: Weakly-supervised Audio Separation via Bi-modal Semantic Similarity
- arxiv url: http://arxiv.org/abs/2404.01740v1
- Date: Tue, 2 Apr 2024 08:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 17:18:56.602437
- Title: Weakly-supervised Audio Separation via Bi-modal Semantic Similarity
- Title(参考訳): バイモーダル・セマンティック類似性を用いた弱教師付き音声分離
- Authors: Tanvir Mahmud, Saeed Amizadeh, Kazuhito Koishida, Diana Marculescu,
- Abstract要約: 既存のmix-and-separateベースのメソッドは、マルチソースのトレーニングミックスで大幅にパフォーマンス低下する。
そこで本研究では,既存の教師なしフレームワークを拡張して,単一ソース信号のターゲットモダリティを分離する汎用バイモーダル分離フレームワークを提案する。
我々のフレームワークは,ベースライン上でのSDR(Signal-to-Distortion Ratio)で71%向上し,教師付き学習性能の97.5%に達することを示す。
- 参考スコア(独自算出の注目度): 21.610354683236885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conditional sound separation in multi-source audio mixtures without having access to single source sound data during training is a long standing challenge. Existing mix-and-separate based methods suffer from significant performance drop with multi-source training mixtures due to the lack of supervision signal for single source separation cases during training. However, in the case of language-conditional audio separation, we do have access to corresponding text descriptions for each audio mixture in our training data, which can be seen as (rough) representations of the audio samples in the language modality. To this end, in this paper, we propose a generic bi-modal separation framework which can enhance the existing unsupervised frameworks to separate single-source signals in a target modality (i.e., audio) using the easily separable corresponding signals in the conditioning modality (i.e., language), without having access to single-source samples in the target modality during training. We empirically show that this is well within reach if we have access to a pretrained joint embedding model between the two modalities (i.e., CLAP). Furthermore, we propose to incorporate our framework into two fundamental scenarios to enhance separation performance. First, we show that our proposed methodology significantly improves the performance of purely unsupervised baselines by reducing the distribution shift between training and test samples. In particular, we show that our framework can achieve 71% boost in terms of Signal-to-Distortion Ratio (SDR) over the baseline, reaching 97.5% of the supervised learning performance. Second, we show that we can further improve the performance of the supervised learning itself by 17% if we augment it by our proposed weakly-supervised framework, that enables a powerful semi-supervised framework for audio separation.
- Abstract(参考訳): 訓練中に単一の音源データにアクセスできないマルチソースオーディオミックスの条件付き音源分離は、長年の課題である。
既存のミックス・アンド・セパレート方式は、トレーニング中に単一ソース分離ケースの監視信号が欠如しているため、マルチソース・トレーニング・ミックスの大幅な性能低下に悩まされている。
しかし、言語条件による音声分離の場合、トレーニングデータ中の各オーディオミックスの対応するテキスト記述にアクセスでき、言語モダリティにおけるオーディオサンプルの(粗い)表現として見ることができる。
そこで,本稿では,既存の教師なしフレームワークを拡張して,対象モダリティにおける単一ソースサンプルへのアクセスを必要とせずに,条件付きモダリティ(言語)において容易に分離可能な対応信号を用いて,対象モダリティ(音声)内で単一ソース信号を分離する,汎用的なバイモーダル分離フレームワークを提案する。
2つのモダリティ(CLAP)間の事前訓練された結合埋め込みモデルにアクセスできれば,これは十分に到達範囲内であることが実証的に示される。
さらに,分離性能を高めるために,我々のフレームワークを2つの基本的なシナリオに組み込むことを提案する。
まず,本提案手法は,トレーニングとテストサンプル間の分布シフトを小さくすることで,教師なしベースラインの性能を著しく向上することを示す。
特に,本フレームワークは,ベースライン上でのSDR(Signal-to-Distortion Ratio)で71%向上し,教師付き学習性能の97.5%に達することを示す。
第2に、音声分離のための強力な半教師付きフレームワークを実現する弱教師付きフレームワークにより、教師付き学習自体の性能を17%向上させることができることを示す。
関連論文リスト
- A contrastive-learning approach for auditory attention detection [11.28441753596964]
本稿では,参加音声信号の潜在表現と対応する脳波信号との差を最小化するために,自己教師付き学習に基づく手法を提案する。
この結果と以前に公表した手法を比較し,検証セット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-24T03:13:53Z) - CPM: Class-conditional Prompting Machine for Audio-visual Segmentation [17.477225065057993]
CPM(Class-conditional Prompting Machine)は,クラス非依存クエリとクラス条件クエリを組み合わせた学習戦略により,双方向マッチングを改善した。
我々はAVSベンチマーク実験を行い、その手法がSOTA(State-of-the-art)セグメンテーションの精度を実現することを示す。
論文 参考訳(メタデータ) (2024-07-07T13:20:21Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video
Parsing [52.2231419645482]
本稿では,弱教師付き音声・視覚ビデオ解析タスクについて述べる。
それぞれのモードに属する全ての事象を認識し、時間的境界をローカライズすることを目的としている。
論文 参考訳(メタデータ) (2022-04-25T11:41:17Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Multimodal Semi-supervised Learning Framework for Punctuation Prediction
in Conversational Speech [17.602098162338137]
句読点予測のためのマルチモーダル半教師付き学習手法について検討する。
我々は大量の音声およびテキストデータから表現を学習する。
1時間分の音声とテキストデータをトレーニングすると、ベースラインモデルよりも9-18%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-08-03T08:13:09Z) - Seeing voices and hearing voices: learning discriminative embeddings
using cross-modal self-supervision [44.88044155505332]
私たちは、ユニモーダルな下流タスクに対してより差別的な埋め込みをトレーニングするための、以前の作業の上に構築しています。
本稿では,モダリティ間のメトリクスを最適化するだけでなく,各モダリティ内でクラス内特徴分離を実施する新しいトレーニング戦略を提案する。
本手法の有効性は,音声-視覚同期で訓練された特徴を用いた唇読解と,クロスモーダルバイオメトリックマッチングで訓練された特徴を用いた話者認識の2つの下流課題において実証された。
論文 参考訳(メタデータ) (2020-04-29T16:51:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。