論文の概要: LC-Protonets: Multi-label Few-shot learning for world music audio tagging
- arxiv url: http://arxiv.org/abs/2409.11264v1
- Date: Tue, 17 Sep 2024 15:13:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 16:13:33.979601
- Title: LC-Protonets: Multi-label Few-shot learning for world music audio tagging
- Title(参考訳): LC-Protonets:ワールドミュージックオーディオタギングのためのマルチラベルFew-shot Learning
- Authors: Charilaos Papaioannou, Emmanouil Benetos, Alexandros Potamianos,
- Abstract要約: ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
- 参考スコア(独自算出の注目度): 65.72891334156706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Label-Combination Prototypical Networks (LC-Protonets) to address the problem of multi-label few-shot classification, where a model must generalize to new classes based on only a few available examples. Extending Prototypical Networks, LC-Protonets generate one prototype per label combination, derived from the power set of labels present in the limited training items, rather than one prototype per label. Our method is applied to automatic audio tagging across diverse music datasets, covering various cultures and including both modern and traditional music, and is evaluated against existing approaches in the literature. The results demonstrate a significant performance improvement in almost all domains and training setups when using LC-Protonets for multi-label classification. In addition to training a few-shot learning model from scratch, we explore the use of a pre-trained model, obtained via supervised learning, to embed items in the feature space. Fine-tuning improves the generalization ability of all methods, yet LC-Protonets achieve high-level performance even without fine-tuning, in contrast to the comparative approaches. We finally analyze the scalability of the proposed method, providing detailed quantitative metrics from our experiments. The implementation and experimental setup are made publicly available, offering a benchmark for future research.
- Abstract(参考訳): 本稿では,ラベル結合型プロトタイプネットワーク (LC-Protonets) を導入し,複数ラベルの複数ショット分類の問題に対処する。
プロトタイプネットワークを拡張して、LC-Protonetsはラベルごとに1つのプロトタイプを生成するが、これはラベルごとに1つのプロトタイプではなく、限られたトレーニング項目に存在するラベルのパワーセットに由来する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用し,文献の既存手法に対して評価する。
その結果,LC-Protonetsを多ラベル分類に用いる場合,ほぼすべての領域で性能が向上し,トレーニング設定も大幅に向上した。
数発の学習モデルをスクラッチからトレーニングすることに加えて,教師付き学習によって得られた事前学習モデルを用いて,特徴空間にアイテムを埋め込む方法について検討する。
ファインチューニングは、全ての手法の一般化能力を改善するが、LCプロトネットは、比較手法とは対照的に、微調整なしで高いレベルの性能を達成する。
提案手法のスケーラビリティを解析し,実験結果から詳細な定量的指標を提供する。
実装と実験的なセットアップは公開されており、将来の研究のためのベンチマークを提供している。
関連論文リスト
- Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。
これまでにないNLPタスク(4,8,16)の学習に重点を置いている。
このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-31T16:06:48Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。
本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。
本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T22:46:19Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。