論文の概要: Matching Text and Audio Embeddings: Exploring Transfer-learning
Strategies for Language-based Audio Retrieval
- arxiv url: http://arxiv.org/abs/2210.02833v1
- Date: Thu, 6 Oct 2022 11:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:58:39.734629
- Title: Matching Text and Audio Embeddings: Exploring Transfer-learning
Strategies for Language-based Audio Retrieval
- Title(参考訳): テキストとオーディオの埋め込みのマッチング:言語に基づく音声検索のための移動学習戦略を探る
- Authors: Benno Weck, Miguel P\'erez Fern\'andez, Holger Kirchhoff, Xavier Serra
- Abstract要約: 本稿では,クロスモーダル(テキスト・トゥ・オーディオ)検索に用いる大規模事前学習モデルの解析を行う。
我々は、これらのモデルから抽出された埋め込みをメトリクス学習フレームワークで使用し、一致するオーディオとテキストのペアを接続する。
- 参考スコア(独自算出の注目度): 11.161404854726348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an analysis of large-scale pretrained deep learning models used
for cross-modal (text-to-audio) retrieval. We use embeddings extracted by these
models in a metric learning framework to connect matching pairs of audio and
text. Shallow neural networks map the embeddings to a common dimensionality.
Our system, which is an extension of our submission to the Language-based Audio
Retrieval Task of the DCASE Challenge 2022, employs the RoBERTa foundation
model as the text embedding extractor. A pretrained PANNs model extracts the
audio embeddings. To improve the generalisation of our model, we investigate
how pretraining with audio and associated noisy text collected from the online
platform Freesound improves the performance of our method. Furthermore, our
ablation study reveals that the proper choice of the loss function and
fine-tuning the pretrained models are essential in training a competitive
retrieval system.
- Abstract(参考訳): 本稿では,クロスモーダル (text-to-audio) 検索に用いる大規模事前学習モデルの解析を行う。
これらのモデルから抽出された埋め込みをメトリック学習フレームワークとして使用して,オーディオとテキストのマッチングペアを接続する。
浅いニューラルネットワークは埋め込みを共通の次元にマッピングする。
本システムでは,テキスト埋め込み抽出器としてRoBERTaファンデーションモデルを用いて,Language-based Audio Retrieval Task of the DCASE Challenge 2022の拡張を行った。
事前訓練されたPANNsモデルは、オーディオ埋め込みを抽出する。
モデルの一般化を図るため,オンラインプラットフォームfreesoundから収集した音声および関連雑音文の事前学習により,提案手法の性能が向上することを示す。
さらに, 本研究は, 競争検索システムの学習において, 損失関数の適切な選択と事前学習モデルの微調整が不可欠であることを示す。
関連論文リスト
- CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - CTAL: Pre-training Cross-modal Transformer for Audio-and-Language
Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。
感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文 参考訳(メタデータ) (2021-09-01T04:18:19Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。
音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。
本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文 参考訳(メタデータ) (2020-01-26T07:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。