論文の概要: Music auto-tagging in the long tail: A few-shot approach
- arxiv url: http://arxiv.org/abs/2409.07730v2
- Date: Tue, 17 Sep 2024 00:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 11:25:49.166932
- Title: Music auto-tagging in the long tail: A few-shot approach
- Title(参考訳): 長い尾にある音楽の自動タグ付け:数秒のアプローチ
- Authors: T. Aleksandra Ma, Alexander Lerch,
- Abstract要約: マルチラベル音楽の自動タグ付けに少数ショット学習手法を統合することを提案する。
実験により,事前学習した特徴を持つ簡易モデルにより,最先端モデルに近い性能が得られることを示した。
- 参考スコア(独自算出の注目度): 45.873301228345696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of digital music, using tags to efficiently organize and retrieve music from extensive databases is crucial for music catalog owners. Human tagging by experts is labor-intensive but mostly accurate, whereas automatic tagging through supervised learning has approached satisfying accuracy but is restricted to a predefined set of training tags. Few-shot learning offers a viable solution to expand beyond this small set of predefined tags by enabling models to learn from only a few human-provided examples to understand tag meanings and subsequently apply these tags autonomously. We propose to integrate few-shot learning methodology into multi-label music auto-tagging by using features from pre-trained models as inputs to a lightweight linear classifier, also known as a linear probe. We investigate different popular pre-trained features, as well as different few-shot parametrizations with varying numbers of classes and samples per class. Our experiments demonstrate that a simple model with pre-trained features can achieve performance close to state-of-the-art models while using significantly less training data, such as 20 samples per tag. Additionally, our linear probe performs competitively with leading models when trained on the entire training dataset. The results show that this transfer learning-based few-shot approach could effectively address the issue of automatically assigning long-tail tags with only limited labeled data.
- Abstract(参考訳): デジタル音楽の分野では、タグを使って広範囲なデータベースから楽曲を効率的に整理し、検索することが、音楽カタログの所有者にとって不可欠である。
専門家による人間のタグ付けは労働集約的であるが、ほとんどは正確である。一方、教師付き学習による自動タグ付けは、精度を満足するが、事前に定義されたトレーニングタグのセットに制限されている。
タグの意味を理解するために、少数の人間が提供する例からモデルを学習し、その後、これらのタグを自律的に適用することで、この小さな定義済みのタグのセットを超えて、実行可能なソリューションを提供する。
本稿では,事前学習されたモデルから,線形プローブとしても知られる軽量線形分類器への特徴を入力として利用することにより,少数ショット学習手法をマルチラベル音楽の自動タグに組み込むことを提案する。
本研究は,クラス数やクラス毎のサンプル数によって異なる数式パラメトリゼーションの他,人気の高い事前学習機能についても検討する。
実験により,事前学習した特徴を持つ単純なモデルでは,タグ毎の20サンプルなど,トレーニングデータを大幅に削減しつつ,最先端モデルに近い性能が得られることが示された。
さらに、トレーニングデータセット全体をトレーニングする場合、線形プローブは主要なモデルと競合する。
提案手法は,ラベル付きデータに制限のあるロングテールタグを自動的に割り当てるという問題に効果的に対処できることが示唆された。
関連論文リスト
- LC-Protonets: Multi-label Few-shot learning for world music audio tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging [6.363158395541767]
自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。
本研究では,音楽タギングのための新たな自己指導手法の性能について検討し,比較する。
論文 参考訳(メタデータ) (2024-04-14T07:56:08Z) - Task Specific Pretraining with Noisy Labels for Remote Sensing Image Segmentation [18.598405597933752]
自己監督(Self-supervision)は、人造地理空間アノテーションの正確な量を減らすためのリモートセンシングツールを提供する。
本研究では,モデル事前学習のためのノイズの多いセマンティックセグメンテーションマップを提案する。
2つのデータセットから,ノイズラベルを用いたタスク固有教師付き事前学習の有効性が示唆された。
論文 参考訳(メタデータ) (2024-02-25T18:01:42Z) - On Measuring the Intrinsic Few-Shot Hardness of Datasets [49.37562545777455]
トレーニング済みのモデルに対して、データセットに固有の数ショットの硬さを示す。
そこで我々は,数発の学習が可能な直感をとらえる,シンプルで軽量な尺度"Spread"を提案する。
我々の測定基準は、既存の硬さの概念に比べて数発の硬さを考慮し、計算が8~100倍高速である。
論文 参考訳(メタデータ) (2022-11-16T18:53:52Z) - An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning [58.59343434538218]
間接学習の観点から、ラベルなしデータの正負の擬似ラベルを正確に予測するための、単純だが非常に効果的な手法を提案する。
私たちのアプローチは、オフザシェルフ操作のみを使用することで、ほんの数行のコードで実装できます。
論文 参考訳(メタデータ) (2022-09-28T02:11:34Z) - Active Self-Training for Weakly Supervised 3D Scene Semantic
Segmentation [17.27850877649498]
本稿では,自己学習と能動的学習を組み合わせた3次元シーンの弱教師付きセグメンテーション手法を提案する。
提案手法は,従来の作業やベースラインよりもシーンセグメンテーションを改善する効果的な手法であることを示す。
論文 参考訳(メタデータ) (2022-09-15T06:00:25Z) - A Survey on Deep Learning with Noisy Labels: How to train your model
when you cannot trust on the annotations? [21.562089974755125]
ノイズラベルの存在下でのディープラーニングモデルのトレーニングを改善するために,いくつかのアプローチが提案されている。
本稿では,ロバストな損失,サンプル重み付け,サンプル選択,メタラーニング,組み合わせアプローチの3つのグループでアルゴリズムを分類する。
論文 参考訳(メタデータ) (2020-12-05T15:45:20Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。