論文の概要: Enhancing Automatic Chord Recognition via Pseudo-Labeling and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2602.19778v1
- Date: Mon, 23 Feb 2026 12:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.810149
- Title: Enhancing Automatic Chord Recognition via Pseudo-Labeling and Knowledge Distillation
- Title(参考訳): 擬似ラベルと知識蒸留によるコード認識の強化
- Authors: Nghia Phan, Rong Jin, Gang Liu, Xiao Dong,
- Abstract要約: 事前学習されたモデルとラベルなしオーディオを併用した2段階トレーニングパイプラインを提案する。
提案手法は,学習を2段階に分離する。第1段階では,教師として事前学習されたBTCモデルを用いて,1,000時間以上の多様な未ラベル音声の擬似ラベルを生成する。
第2段階では、学生は利用可能になるにつれて、地道なラベルで継続的に訓練される。
- 参考スコア(独自算出の注目度): 15.472587124866136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Chord Recognition (ACR) is constrained by the scarcity of aligned chord labels, as well-aligned annotations are costly to acquire. At the same time, open-weight pre-trained models are currently more accessible than their proprietary training data. In this work, we present a two-stage training pipeline that leverages pre-trained models together with unlabeled audio. The proposed method decouples training into two stages. In the first stage, we use a pre-trained BTC model as a teacher to generate pseudo-labels for over 1,000 hours of diverse unlabeled audio and train a student model solely on these pseudo-labels. In the second stage, the student is continually trained on ground-truth labels as they become available, with selective knowledge distillation (KD) from the teacher applied as a regularizer to prevent catastrophic forgetting of the representations learned in the first stage. In our experiments, two models (BTC, 2E1D) were used as students. In stage 1, using only pseudo-labels, the BTC student achieves over 98% of the teacher's performance, while the 2E1D model achieves about 96% across seven standard mir_eval metrics. After a single training run for both students in stage 2, the resulting BTC student model surpasses the traditional supervised learning baseline by 2.5% and the original pre-trained teacher model by 1.55% on average across all metrics. And the resulting 2E1D student model improves from the traditional supervised learning baseline by 3.79% on average and achieves almost the same performance as the teacher. Both cases show the large gains on rare chord qualities.
- Abstract(参考訳): 一致したコードラベルの不足により、ACR(Automatic Chord Recognition)が制約され、整合したアノテーションを取得するのにコストがかかる。
同時に、オープンウェイトな事前訓練されたモデルは、現在、独自のトレーニングデータよりもアクセスしやすくなっている。
本研究では,事前学習したモデルとラベルなしオーディオを併用した2段階トレーニングパイプラインを提案する。
提案手法はトレーニングを2段階に分離する。
第1段階では、事前学習されたBTCモデルを教師として使用し、1,000時間以上の多彩な未ラベル音声の擬似ラベルを生成し、これらの擬似ラベルのみに基づいて学生モデルを訓練する。
第2段階では、第1段階において学習した表現の破滅的な忘れ込みを防止するため、教師から選択的な知識蒸留(KD)をレギュラーライザとして適用した。
実験では,2つのモデル (BTC, 2E1D) を学生として使用した。
ステージ1では、擬似ラベルのみを使用して、BTC学生は教師のパフォーマンスの98%以上を達成し、2E1Dモデルは7つの標準mir_evalメトリクスの約96%を達成している。
両方の学生がステージ2で1回のトレーニングを行った後、BTCの学生モデルは従来の教師付き学習ベースラインを2.5%上回り、元来の教師モデルはすべてのメトリクスで平均1.55%上回った。
結果として得られた2E1D学生モデルは、教師付き学習ベースラインから平均3.79%向上し、教師とほぼ同等のパフォーマンスを達成する。
どちらのケースも、希少な和音の質に大きな利益をもたらしている。
関連論文リスト
- Efficient Face Image Quality Assessment via Self-training and Knowledge Distillation [51.43664253596246]
顔画像品質評価(FIQA)は、様々な顔関連アプリケーションに不可欠である。
我々は,現実のアプリケーションに容易に展開可能な計算効率の良いFIQA手法の開発を目指している。
論文 参考訳(メタデータ) (2025-07-21T15:17:01Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Online pseudo labeling for polyp segmentation with momentum networks [5.920947681019466]
半教師付き学習では、ラベルの品質がモデルパフォーマンスにおいて重要な役割を果たす。
本稿では,学生ネットワークのトレーニングに使用される擬似ラベルの品質を高めるための,新しい擬似ラベル方式を提案する。
実験結果は, 通常の手法を3%超え, ある程度のデータセットで完全に監督された結果に近づいた。
論文 参考訳(メタデータ) (2022-09-29T07:33:54Z) - Learning from Future: A Novel Self-Training Framework for Semantic
Segmentation [33.66516999361252]
自己学習は半教師あり学習において大きな可能性を秘めている。
本稿では,モデルが未来から学べる,新たな自己学習戦略を提案する。
我々は,幅広い環境下でのアプローチの有効性と優位性を実験的に実証した。
論文 参考訳(メタデータ) (2022-09-15T01:39:46Z) - ALM-KD: Knowledge Distillation with noisy labels via adaptive loss
mixing [25.49637460661711]
知識蒸留は、教師付き環境で学生モデルを訓練するために、事前訓練されたモデルの出力を使用する技術である。
KD中の適応損失混合方式を用いてこの問題に対処する。
提案手法は, 標準KD設定, マルチ教師, 自己蒸留設定において, 提案手法を用いて得られた性能向上を示す。
論文 参考訳(メタデータ) (2022-02-07T14:53:22Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z) - Distilling Double Descent [65.85258126760502]
蒸留とは、別の「教師」モデルでラベル付けされた例に基づいた「学生」モデルを訓練する技法である。
教師モデルが非常にパラメータ化されすぎている場合であっても、非常に大きな保持されていないラベル付きデータセットを使用することで、より"伝統的な"アプローチを上回るモデルが生まれます。
論文 参考訳(メタデータ) (2021-02-13T02:26:48Z) - Noisy Concurrent Training for Efficient Learning under Label Noise [13.041607703862724]
ディープニューラルネットワーク(DNN)はラベルノイズの下で効果的に学習することができず、その性能に影響を与えるランダムなラベルを記憶することが示されている。
我々は,単独で学習すること,ワンホット符号化ラベルを唯一の監督源として使用すること,および標準訓練手順の主な欠点として記憶を阻害するための正規化の欠如を考察する。
協調学習を活用して2つのモデル間のコンセンサスを新たな監督源として活用するノイズコンカレントトレーニング(NCT)を提案する。
論文 参考訳(メタデータ) (2020-09-17T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。