論文の概要: A Semi-Supervised Deep Learning Approach to Dataset Collection for
Query-By-Humming Task
- arxiv url: http://arxiv.org/abs/2312.01092v1
- Date: Sat, 2 Dec 2023 09:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 19:18:37.026041
- Title: A Semi-Supervised Deep Learning Approach to Dataset Collection for
Query-By-Humming Task
- Title(参考訳): クエリバイハミングタスクのためのデータセット収集のための半教師付き深層学習手法
- Authors: Amantur Amatov, Dmitry Lamanov, Maksim Titov, Ivan Vovk, Ilya Makarov,
Mikhail Kudinov
- Abstract要約: Query-by-Humming (QbH)は、ハンムや歌の断片に基づいて最も関連性の高い曲を見つけるタスクである。
近年の商用ソリューションの成功にもかかわらず、高品質なデータセットが欠如しているため、QbHシステムの実装は依然として困難である。
- 参考スコア(独自算出の注目度): 2.057202263939973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query-by-Humming (QbH) is a task that involves finding the most relevant song
based on a hummed or sung fragment. Despite recent successful commercial
solutions, implementing QbH systems remains challenging due to the lack of
high-quality datasets for training machine learning models. In this paper, we
propose a deep learning data collection technique and introduce Covers and
Hummings Aligned Dataset (CHAD), a novel dataset that contains 18 hours of
short music fragments, paired with time-aligned hummed versions. To expand our
dataset, we employ a semi-supervised model training pipeline that leverages the
QbH task as a specialized case of cover song identification (CSI) task.
Starting with a model trained on the initial dataset, we iteratively collect
groups of fragments of cover versions of the same song and retrain the model on
the extended data. Using this pipeline, we collect over 308 hours of additional
music fragments, paired with time-aligned cover versions. The final model is
successfully applied to the QbH task and achieves competitive results on
benchmark datasets. Our study shows that the proposed dataset and training
pipeline can effectively facilitate the implementation of QbH systems.
- Abstract(参考訳): Query-by-Humming (QbH)は、ハンムや歌の断片に基づいて最も関連する曲を見つけるタスクである。
最近の商用ソリューションの成功にもかかわらず、機械学習モデルをトレーニングするための高品質なデータセットがないため、QbHシステムの実装は依然として難しい。
本稿では,深層学習のためのデータ収集手法を提案し,長さ18時間の短い楽曲断片を含む新しいデータセットである cover and hummings aligned dataset (chad) を紹介する。
データセットの拡張には、QbHタスクをカバーソング識別(CSI)タスクの特殊なケースとして活用する半教師付きモデルトレーニングパイプラインを用いる。
最初のデータセットでトレーニングされたモデルから始めると、同じ曲のカバーバージョンのフラグメントのグループを反復的に収集し、拡張データ上でモデルを再トレーニングします。
このパイプラインを使用して308時間以上の音楽断片を収集し、タイムアラインなカバーバージョンと組み合わせます。
最終モデルはQbHタスクにうまく適用され、ベンチマークデータセット上での競合結果を達成する。
提案したデータセットとトレーニングパイプラインは,QbHシステムの実装を効果的に促進できることを示す。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Continual learning with task specialist [2.8830182365988923]
破滅的な忘れと限定されたラベル付きデータの問題に対処するために,タスクスペシャリストによる連続学習(CLTS)を提案する。
モデルはタスクスペシャリスト(T S)とタスク予測器(T P)と、事前訓練された安定拡散(SD)モジュールで構成される。
3つの実世界のデータセットで行った4つのSOTAモデルとの比較研究により、提案モデルが選択されたベースラインすべてより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-26T12:59:09Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - Dataset Condensation for Time Series Classification via Dual Domain Matching [12.317728375957717]
本研究では,textittextbfTime textittextbfSeries textittextbfClassificationをDual Domain Matching経由で生成する新しいフレームワークであるtextittextbfCondensationを提案する。
提案するフレームワークは,時間領域と周波数領域の両方のサロゲート目的にマッチする凝縮データセットを生成することを目的としている。
論文 参考訳(メタデータ) (2024-03-12T02:05:06Z) - Finding Foundation Models for Time Series Classification with a PreText
Task [7.197233473373693]
本稿では,時系列分類のための事前訓練済みドメイン基盤モデルを提案する。
我々の方法論の重要な側面は、複数のデータセットにまたがる新しいプリテキストタスクである。
UCRアーカイブの実験では,この事前学習戦略が,事前学習を伴わずに従来の訓練方法よりも有意に優れていたことが示されている。
論文 参考訳(メタデータ) (2023-11-24T15:03:55Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Long-Tailed Question Answering in an Open World [46.67715607552547]
我々は、Long-Tailed QA (OLTQA) を、長い尾の分散データから学習するものとして定義する。
OLTQAモデルを提案し,頭,尾,目立たないタスク間の知識共有を促進する。
大規模なOLTQAデータセットでは、我々のモデルは一貫して最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-11T04:28:58Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。