論文の概要: Self-training with noisy student model and semi-supervised loss function
for dcase 2021 challenge task 4
- arxiv url: http://arxiv.org/abs/2107.02569v1
- Date: Tue, 6 Jul 2021 12:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 20:20:26.387355
- Title: Self-training with noisy student model and semi-supervised loss function
for dcase 2021 challenge task 4
- Title(参考訳): dcase 2021チャレンジタスク4における騒音学生モデルと半教師付き損失関数を用いた自己学習
- Authors: Nam Kyun Kim and Hong Kook Kim
- Abstract要約: 本報告では,DCASE 2021 Challenge Task 4における多声音事象検出(SED)手法を提案する。
提案したSEDモデルは,弱ラベル付きまたは未ラベル付きデータに対する目標ラベルを提供する平均教師モデルと,強ラベルの音響イベントを予測する自己学習型雑音学生モデルとの2段階からなる。
- 参考スコア(独自算出の注目度): 5.117030416610515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report proposes a polyphonic sound event detection (SED) method for the
DCASE 2021 Challenge Task 4. The proposed SED model consists of two stages: a
mean-teacher model for providing target labels regarding weakly labeled or
unlabeled data and a self-training-based noisy student model for predicting
strong labels for sound events. The mean-teacher model, which is based on the
residual convolutional recurrent neural network (RCRNN) for the teacher and
student model, is first trained using all the training data from a weakly
labeled dataset, an unlabeled dataset, and a strongly labeled synthetic
dataset. Then, the trained mean-teacher model predicts the strong label to each
of the weakly labeled and unlabeled datasets, which is brought to the noisy
student model in the second stage of the proposed SED model. Here, the
structure of the noisy student model is identical to the RCRNN-based student
model of the mean-teacher model in the first stage. Then, it is self-trained by
adding feature noises, such as time-frequency shift, mixup, SpecAugment, and
dropout-based model noise. In addition, a semi-supervised loss function is
applied to train the noisy student model, which acts as label noise injection.
The performance of the proposed SED model is evaluated on the validation set of
the DCASE 2021 Challenge Task 4, and then, several ensemble models that combine
five-fold validation models with different hyperparameters of the
semi-supervised loss function are finally selected as our final models.
- Abstract(参考訳): 本報告では,DCASE 2021 Challenge Task 4における多声音事象検出(SED)手法を提案する。
提案するsedモデルは,弱ラベルデータや無ラベルデータに関する目標ラベルを提供する平均教師モデルと,音響イベントの強いラベルを予測する自己学習型雑音学生モデルである。
教師と生徒モデルの残差畳み込みリカレントニューラルネットワーク(rcrnn)に基づく平均教師モデルは、まず弱いラベル付きデータセット、ラベル付きデータセット、強いラベル付き合成データセットからのすべてのトレーニングデータを使用してトレーニングされる。
そして、訓練された平均教師モデルは、弱ラベル付きおよび未ラベル付きデータセットのそれぞれに強いラベルを予測し、提案したSEDモデルの第2段階でノイズの多い学生モデルに導かれる。
ここで,ノイズの大きい学生モデルの構造は,第1段階における平均教師モデルのrcrnnに基づく学生モデルと同一である。
次に、時間周波数シフト、ミックスアップ、SpecAugment、ドロップアウトベースのモデルノイズなどの特徴ノイズを追加することで、自己学習を行う。
さらに, 半教師付き損失関数を適用し, ラベルノイズインジェクションとして振る舞う学生モデルの学習を行う。
提案したSEDモデルの性能はDCASE 2021チャレンジタスク4の検証セットに基づいて評価され、その後、半教師付き損失関数の異なるハイパーパラメータと5倍の検証モデルを組み合わせた複数のアンサンブルモデルが最終的に最終モデルとして選択される。
関連論文リスト
- Prototype based Masked Audio Model for Self-Supervised Learning of Sound Event Detection [22.892382672888488]
半教師付きアルゴリズムはラベルのないデータから学ぶためにラベル付きデータに依存する。
SEDにおける自己教師型表現学習のためのプロトタイプベースMasked Audio Model(PMAM)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T09:07:20Z) - Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - SeNM-VAE: Semi-Supervised Noise Modeling with Hierarchical Variational Autoencoder [13.453138169497903]
SeNM-VAEは、ペアとアンペアの両方のデータセットを利用して、現実的な劣化データを生成する半教師付きノイズモデリング手法である。
実世界の画像認識と超分解能タスクのためのペアトレーニングサンプルを生成するために,本手法を用いた。
提案手法は, 合成劣化画像の品質を, 他の不対とペアのノイズモデリング法と比較して向上させる。
論文 参考訳(メタデータ) (2024-03-26T09:03:40Z) - Dual Student Networks for Data-Free Model Stealing [79.67498803845059]
主な課題は、パラメータにアクセスせずにターゲットモデルの勾配を推定し、多様なトレーニングサンプルを生成することである。
そこで本研究では,2人の学生が左右対称に学習し,学生が反対するサンプルを生成するための基準を提案する。
我々の新しい最適化フレームワークは、目標モデルのより正確な勾配推定と、ベンチマーク分類データセットの精度向上を提供する。
論文 参考訳(メタデータ) (2023-09-18T18:11:31Z) - Semi-Supervised 2D Human Pose Estimation Driven by Position
Inconsistency Pseudo Label Correction Module [74.80776648785897]
i) 大規模モデルと軽量モデルの間で対話的なトレーニングを行う場合, 大規模モデルのガイドに擬似的な軽量モデルラベルを用いる。
位置整合性擬似ラベル補正モジュール(SSPCM)により駆動される半教師付き2次元ポーズ推定フレームワークを提案する。
学生モデルの性能向上のために,擬似キーポイント認識に基づく半教師付きカットオクルードを用いて,より硬く効果的なサンプルを生成する。
論文 参考訳(メタデータ) (2023-03-08T02:57:05Z) - A Hybrid System of Sound Event Detection Transformer and Frame-wise
Model for DCASE 2022 Task 4 [13.89334234310826]
本報告では,DCASE 2022 Task4のシステムについて詳述する。
このシステムは2つのかなり異なるモデル、SEDT(End-to-end Sound Event Detection Transformer)とMLFLCNN(Learning and Focal Loss CNN)を組み合わせている。
コードはhttps://github.com/965694547/Hybrid-system-of-frame-wise-model-and-SEDTで公開されている。
論文 参考訳(メタデータ) (2022-10-18T01:47:05Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating
Back-Propagation for Saliency Detection [54.98042023365694]
本稿では,ノイズを考慮したエンコーダ・デコーダ・フレームワークを提案する。
提案モデルはニューラルネットワークによってパラメータ化された2つのサブモデルから構成される。
論文 参考訳(メタデータ) (2020-07-23T18:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。