論文の概要: tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models
- arxiv url: http://arxiv.org/abs/2311.14517v3
- Date: Tue, 24 Sep 2024 11:22:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 09:38:57.959115
- Title: tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models
- Title(参考訳): littleCLAP: コンストラッシブ言語を蒸留する-Audio Pretrained Model
- Authors: Francesco Paissan, Elisabetta Farella,
- Abstract要約: 本稿では,コントラッシブ言語-オーディオ事前学習モデルの複雑さを軽減する方法について検討する。
第一原理から一元蒸留損失を導出し、共有多モードラテント空間の次元性をいかに小さくするかを探求する。
TinyCLAPは、ゼロショット分類性能において、オリジナルのMicrosoft CLAPパラメータの6%しか使用していない(5%未満)。
- 参考スコア(独自算出の注目度): 2.9619090219410515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Audio Pretraining (CLAP) became of crucial importance in the field of audio and speech processing. Its employment ranges from sound event detection to text-to-audio generation. However, one of the main limitations is the considerable amount of data required in the training process and the overall computational complexity during inference. This paper investigates how we can reduce the complexity of contrastive language-audio pre-trained models, yielding an efficient model that we call tinyCLAP. We derive an unimodal distillation loss from first principles and explore how the dimensionality of the shared, multimodal latent space can be reduced via pruning. TinyCLAP uses only 6% of the original Microsoft CLAP parameters with a minimal reduction (less than 5%) in zero-shot classification performance across the three sound event detection datasets on which it was tested
- Abstract(参考訳): 音声処理や音声処理の分野では,CLAP(Contrastive Language-Audio Pretraining)が重要になった。
雇用範囲は、音声イベント検出からテキスト・トゥ・オーディオ・ジェネレーションまで様々である。
しかし、主な制限の1つは、トレーニングプロセスに必要な大量のデータと、推論中の全体的な計算複雑性である。
本稿では,コントラッシブ言語-オーディオ事前学習モデルの複雑さを減らし,極小CLAPと呼ばれる効率的なモデルを生成する方法について検討する。
第一原理から一元蒸留損失を導出し, 共用多モードラテント空間の次元性をプルーニングにより減少させる方法について検討する。
TinyCLAPはオリジナルのMicrosoft CLAPパラメータの6%しか使用せず、テスト対象の3つのサウンドイベント検出データセットのゼロショット分類性能は最小限(5%未満)である。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining [38.604112878493396]
コントラスト言語-オーディオ事前学習(CLAP)は、音声と言語の表現を整合させるために開発された。
音声とテキストの特徴の時間的情報を取得するために,時間的拡張CLAPモデルであるT-CLAPを導入する。
T-CLAPは、音の事象の時間的関係を捉え、最先端のモデルよりも顕著に優れていることを示す。
論文 参考訳(メタデータ) (2024-04-27T07:05:48Z) - Weakly-supervised Automated Audio Captioning via text only training [1.504795651143257]
本稿では,テキストデータと事前学習されたCLAPモデルのみを前提として,AACモデルをトレーニングするための弱い教師付きアプローチを提案する。
提案手法をClosoとAudioCapsのデータセット上で評価し,完全に教師されたアプローチと比較して,最大83%の相対的な性能を実現する能力を示した。
論文 参考訳(メタデータ) (2023-09-21T16:40:46Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Peer Collaborative Learning for Polyphonic Sound Event Detection [3.325054486984015]
本稿では,ピアコラボレーティブ・ラーニング (PCL) と呼ばれる半教師付き学習が,ポリフォニック・サウンド・イベント検出タスクに適用可能であることを述べる。
提案したPCLモデルをDCASE 2019 Task 4データセットを用いて評価し,ベースラインモデルと比較して約10%のF1スコア改善を実現した。
論文 参考訳(メタデータ) (2021-10-07T14:47:11Z) - Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot
Learning with Knowledge Distillation [26.39206098000297]
小型消音モデルをテスト時間特異性に適応させる新しいパーソナライズ音声強調法を提案する。
このテストタイム適応の目標は、テスト話者のクリーンな音声ターゲットを使わないことです。
欠落しているクリーンな発話ターゲットの代わりに、過度に大きな教師モデルからより高度な消音結果を蒸留します。
論文 参考訳(メタデータ) (2021-05-08T00:42:03Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。