論文の概要: Self-supervised Learning for Acoustic Few-Shot Classification
- arxiv url: http://arxiv.org/abs/2409.09647v1
- Date: Sun, 15 Sep 2024 07:45:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 19:58:08.801542
- Title: Self-supervised Learning for Acoustic Few-Shot Classification
- Title(参考訳): 音響ファウショット分類のための自己教師型学習
- Authors: Jingyong Liang, Bernd Meyer, Issac Ning Lee, Thanh-Toan Do,
- Abstract要約: 我々は、CNNに基づく前処理と状態空間モデル(SSM)に基づく特徴抽出を組み合わせた新しいアーキテクチャを導入、評価する。
実際のタスクデータに対するコントラスト学習と,それに続くラベル付きデータによる微調整を用いて,このアーキテクチャを事前学習する。
本評価は, 数発の分類問題において, 最先端のアーキテクチャよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 10.180992026994739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labelled data are limited and self-supervised learning is one of the most important approaches for reducing labelling requirements. While it has been extensively explored in the image domain, it has so far not received the same amount of attention in the acoustic domain. Yet, reducing labelling is a key requirement for many acoustic applications. Specifically in bioacoustic, there are rarely sufficient labels for fully supervised learning available. This has led to the widespread use of acoustic recognisers that have been pre-trained on unrelated data for bioacoustic tasks. We posit that training on the actual task data and combining self-supervised pre-training with few-shot classification is a superior approach that has the ability to deliver high accuracy even when only a few labels are available. To this end, we introduce and evaluate a new architecture that combines CNN-based preprocessing with feature extraction based on state space models (SSMs). This combination is motivated by the fact that CNN-based networks alone struggle to capture temporal information effectively, which is crucial for classifying acoustic signals. SSMs, specifically S4 and Mamba, on the other hand, have been shown to have an excellent ability to capture long-range dependencies in sequence data. We pre-train this architecture using contrastive learning on the actual task data and subsequent fine-tuning with an extremely small amount of labelled data. We evaluate the performance of this proposed architecture for ($n$-shot, $n$-class) classification on standard benchmarks as well as real-world data. Our evaluation shows that it outperforms state-of-the-art architectures on the few-shot classification problem.
- Abstract(参考訳): ラベル付きデータは制限され、自己教師付き学習はラベリング要求を減らすための最も重要なアプローチの1つである。
画像領域で広く研究されているが、これまで音響領域ではあまり注目されていない。
しかし、多くの音響応用においてラベリングの低減が重要な要件である。
特にバイオ音響学では、完全に教師付き学習ができる十分なラベルはめったにない。
これにより、非関連データに基づいてバイオアコースティックなタスクを事前訓練した音響認識器が広く使われるようになった。
実際のタスクデータに基づくトレーニングと,自己指導型事前学習と数発の分類を組み合わせることは,ラベルが数個しか存在しない場合でも高い精度を達成できる優れたアプローチであると仮定する。
そこで我々は,CNNに基づく事前処理と状態空間モデル(SSM)に基づく特徴抽出を組み合わせた新しいアーキテクチャを導入,評価する。
この組み合わせの動機は、CNNベースのネットワークだけで時間的情報を効果的に捉えるのに苦労しているという事実にある。
一方、SSM、特にS4とMambaは、シーケンスデータの長距離依存関係をキャプチャする優れた能力を持っていることが示されている。
実際のタスクデータに対するコントラスト学習と,それに続くラベル付きデータによる微調整を用いて,このアーキテクチャを事前学習する。
提案アーキテクチャの性能を,標準ベンチマークと実世界のデータに基づいて,$n$-shot,$n$-class)分類で評価した。
本評価は, 数発の分類問題において, 最先端のアーキテクチャよりも優れていることを示す。
関連論文リスト
- Cross-Level Distillation and Feature Denoising for Cross-Domain Few-Shot
Classification [49.36348058247138]
トレーニング段階において,対象領域内のラベルなし画像のごく一部をアクセス可能にすることで,ドメイン間数ショット分類の問題に対処する。
我々は,対象データセットのより識別的な特徴を抽出するモデルの能力を高めるため,クロスレベルな知識蒸留法を慎重に設計する。
提案手法は,従来の動的蒸留法を5.44%,1.37%,5ショット分類法を1.37%超えることができる。
論文 参考訳(メタデータ) (2023-11-04T12:28:04Z) - Self-Supervised Learning for Audio-Based Emotion Recognition [1.7598252755538808]
自己教師付き学習は、教師付きラベルの不足にもかかわらず学習できる方法のファミリーである。
我々は,CMU-MOSEIの音響モダリティからの感情の分類に自己教師付き学習事前学習を適用した。
自己教師型学習は、すべてのメトリクスにわたるモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-07-23T14:40:50Z) - Improving Primate Sounds Classification using Binary Presorting for Deep
Learning [6.044912425856236]
本稿では,MELスペクトル表現のサブセグメンテーションを初めてリラベルする一般化アプローチを提案する。
バイナリプリソートと分類の両方において、畳み込みニューラルネットワーク(CNN)と様々なデータ拡張技術を利用する。
本研究は,異なる霊長類種の音の分類を課題とする,挑戦的なTextitComparE 2021データセットについて,本手法の結果を紹介する。
論文 参考訳(メタデータ) (2023-06-28T09:35:09Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Attention-Aware Noisy Label Learning for Image Classification [97.26664962498887]
大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおいて顕著な進歩を遂げている。
大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。
本稿では,潜在的なラベルノイズのあるデータセットに基づいて学習したネットワークの識別能力を向上させるために,注目に敏感なラベル学習手法を提案する。
論文 参考訳(メタデータ) (2020-09-30T15:45:36Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。