論文の概要: Prototypical Contrastive Learning For Improved Few-Shot Audio Classification
- arxiv url: http://arxiv.org/abs/2509.10074v1
- Date: Fri, 12 Sep 2025 09:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.023965
- Title: Prototypical Contrastive Learning For Improved Few-Shot Audio Classification
- Title(参考訳): Few-Shot音声分類の改良のための原型コントラスト学習
- Authors: Christos Sgouropoulos, Christos Nikou, Stefanos Vlachos, Vasileios Theiou, Christos Foukanelis, Theodoros Giannakopoulos,
- Abstract要約: ラベル付きデータしか持たないモデルをトレーニングするための強力なパラダイムとして、ほとんどショットラーニングが登場していない。
本研究では,音声分類における教師付きコントラスト損失とプロトタイプな少数ショットトレーニングの併用効果について検討する。
- 参考スコア(独自算出の注目度): 3.100682063199351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot learning has emerged as a powerful paradigm for training models with limited labeled data, addressing challenges in scenarios where large-scale annotation is impractical. While extensive research has been conducted in the image domain, few-shot learning in audio classification remains relatively underexplored. In this work, we investigate the effect of integrating supervised contrastive loss into prototypical few shot training for audio classification. In detail, we demonstrate that angular loss further improves the performance compared to the standard contrastive loss. Our method leverages SpecAugment followed by a self-attention mechanism to encapsulate diverse information of augmented input versions into one unified embedding. We evaluate our approach on MetaAudio, a benchmark including five datasets with predefined splits, standardized preprocessing, and a comprehensive set of few-shot learning models for comparison. The proposed approach achieves state-of-the-art performance in a 5-way, 5-shot setting.
- Abstract(参考訳): 大規模なアノテーションが実用的でないシナリオにおける課題に対処するため、ラベル付きデータでモデルをトレーニングするための強力なパラダイムとして、ショット学習が登場した。
画像領域で広範な研究が行われてきたが、音声分類における少数ショット学習はいまだにあまり研究されていない。
本研究では,音声分類における教師付きコントラスト損失とプロトタイプな少数ショットトレーニングの併用効果について検討する。
より詳しくは、標準のコントラスト損失よりも角損失の方が性能を向上することを示した。
提案手法はSpecAugmentの次に自己保持機構を用いて,拡張入力の多様な情報を1つの統合埋め込みにカプセル化する。
我々はMetaAudioに対するアプローチを評価し、事前に定義された分割、標準化された前処理、および比較のための数ショット学習モデルの包括的なセットを含む5つのデータセットを含むベンチマークを行った。
提案手法は,5方向5ショット設定における最先端性能を実現する。
関連論文リスト
- $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - On the Transferability of Large-Scale Self-Supervision to Few-Shot Audio
Classification [7.83105437734593]
自己教師付き学習は、ラベルのないデータから堅牢な特徴表現を学ぶ能力に優れています。
本研究は,大規模自己教師型モデルの性能を数ショット音声分類で評価する。
論文 参考訳(メタデータ) (2024-02-02T10:00:51Z) - Convolutional Ensembling based Few-Shot Defect Detection Technique [0.0]
我々は,複数の事前学習された畳み込みモデルの知識ベースを用いる,複数ショット分類に対する新しいアプローチを提案する。
本フレームワークでは,パラメータの総数を劇的に削減しつつ,精度を高めるために,新しいアンサンブル手法を用いている。
論文 参考訳(メタデータ) (2022-08-05T17:29:14Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Few-Shot Learning with Part Discovery and Augmentation from Unlabeled
Images [79.34600869202373]
帰納的バイアスは、ラベルなし画像の平坦な集合から学習でき、目に見えるクラスと目に見えないクラスの間で伝達可能な表現としてインスタンス化されることを示す。
具体的には、トランスファー可能な表現を学習するための、新しいパートベース自己教師型表現学習手法を提案する。
我々の手法は印象的な結果をもたらし、それまでの最高の教師なし手法を7.74%、9.24%上回った。
論文 参考訳(メタデータ) (2021-05-25T12:22:11Z) - A Framework using Contrastive Learning for Classification with Noisy
Labels [1.2891210250935146]
雑音ラベルの存在下で画像分類を行うために,コントラスト学習を事前学習タスクとして利用するフレームワークを提案する。
擬似ラベル, ガウス混合モデルを用いたサンプル選択, 重み付き教師付きコントラスト学習などの近年の戦略は, 事前学習後の微調整相に組み合わされている。
論文 参考訳(メタデータ) (2021-04-19T18:51:22Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。