論文の概要: A Hybrid System of Sound Event Detection Transformer and Frame-wise
Model for DCASE 2022 Task 4
- arxiv url: http://arxiv.org/abs/2210.09529v1
- Date: Tue, 18 Oct 2022 01:47:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 16:17:59.102061
- Title: A Hybrid System of Sound Event Detection Transformer and Frame-wise
Model for DCASE 2022 Task 4
- Title(参考訳): DCASE 2022タスク4における音事象検出変換器のハイブリッドシステムとフレームワイズモデル
- Authors: Yiming Li, Zhifang Guo, Zhirong Ye, Xiangdong Wang, Hong Liu, Yueliang
Qian, Rui Tao, Long Yan, Kazushige Ouchi
- Abstract要約: 本報告では,DCASE 2022 Task4のシステムについて詳述する。
このシステムは2つのかなり異なるモデル、SEDT(End-to-end Sound Event Detection Transformer)とMLFLCNN(Learning and Focal Loss CNN)を組み合わせている。
コードはhttps://github.com/965694547/Hybrid-system-of-frame-wise-model-and-SEDTで公開されている。
- 参考スコア(独自算出の注目度): 13.89334234310826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we describe in detail our system for DCASE 2022 Task4. The
system combines two considerably different models: an end-to-end Sound Event
Detection Transformer (SEDT) and a frame-wise model, Metric Learning and Focal
Loss CNN (MLFL-CNN). The former is an event-wise model which learns event-level
representations and predicts sound event categories and boundaries directly,
while the latter is based on the widely adopted frame-classification scheme,
under which each frame is classified into event categories and event boundaries
are obtained by post-processing such as thresholding and smoothing. For SEDT,
self-supervised pre-training using unlabeled data is applied, and
semi-supervised learning is adopted by using an online teacher, which is
updated from the student model using the Exponential Moving Average (EMA)
strategy and generates reliable pseudo labels for weakly-labeled and unlabeled
data. For the frame-wise model, the ICT-TOSHIBA system of DCASE 2021 Task 4 is
used. Experimental results show that the hybrid system considerably outperforms
either individual model and achieves psds1 of 0.420 and psds2 of 0.783 on the
validation set without external data. The code is available at
https://github.com/965694547/Hybrid-system-of-frame-wise-model-and-SEDT.
- Abstract(参考訳): 本稿では,DCASE 2022 Task4のシステムについて詳述する。
このシステムは2つのかなり異なるモデル、SEDT(End-to-end Sound Event Detection Transformer)とMetric Learning and Focal Loss CNN(MLFL-CNN)を組み合わせている。
前者はイベントレベルの表現を学び、音のイベントカテゴリと境界を直接予測するイベントワイズモデルであり、後者は広く採用されているフレーム分類スキームに基づいており、各フレームはイベントカテゴリに分類され、イベントバウンダリはしきい値処理や平滑化といった後処理によって得られる。
SEDTでは、ラベルなしデータを用いた自己教師付き事前学習を適用し、オンライン教師を用いて、指数移動平均(EMA)戦略を用いて生徒モデルから更新され、弱いラベル付きデータやラベルなしデータに対する信頼できる擬似ラベルを生成する。
フレームワイドモデルでは、DCASE 2021タスク4のICT-TOSHIBAシステムを使用する。
実験の結果,ハイブリッドシステムは個々のモデルを大きく上回り,外部データ無しで0.420のpsds1と0.783のpsds2を達成した。
コードはhttps://github.com/965694547/Hybrid-system-of-frame-wise-model-and-SEDTで公開されている。
関連論文リスト
- Prototype based Masked Audio Model for Self-Supervised Learning of Sound Event Detection [22.892382672888488]
半教師付きアルゴリズムはラベルのないデータから学ぶためにラベル付きデータに依存する。
SEDにおける自己教師型表現学習のためのプロトタイプベースMasked Audio Model(PMAM)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T09:07:20Z) - Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification [49.09505771145326]
モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。
本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。
論文 参考訳(メタデータ) (2024-04-26T06:00:27Z) - Uncertainty-aware Sampling for Long-tailed Semi-supervised Learning [89.98353600316285]
擬似ラベルサンプリングのモデル化プロセスに不確実性を導入し、各クラスにおけるモデル性能が異なる訓練段階によって異なることを考慮した。
このアプローチにより、モデルは異なる訓練段階における擬似ラベルの不確かさを認識でき、それによって異なるクラスの選択閾値を適応的に調整できる。
FixMatchのような他の手法と比較して、UDTSは自然シーン画像データセットの精度を少なくとも5.26%、1.75%、9.96%、1.28%向上させる。
論文 参考訳(メタデータ) (2024-01-09T08:59:39Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - A Machine Learning Framework for Event Identification via Modal Analysis
of PMU Data [17.105110901241094]
本稿では,モーダルダイナミクスに基づく特徴抽出によるイベントの同定を提案する。
従来の物理に基づく特徴抽出手法と機械学習を組み合わせて、異なるイベントタイプを区別する。
以上の結果から,提案フレームワークは2種類のイベントを識別できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-02-14T16:19:40Z) - Event Data Association via Robust Model Fitting for Event-based Object Tracking [66.05728523166755]
本稿では,イベントアソシエーションと融合問題に明示的に対処する新しいイベントデータアソシエーション(EDA)手法を提案する。
提案するEDAは、統合データアソシエーションと情報融合を行うために、イベントデータに最も適したイベントトラジェクトリを求める。
実験結果から,高速,運動のぼやけ,高ダイナミックレンジ条件といった難易度シナリオ下でのEDAの有効性が示された。
論文 参考訳(メタデータ) (2021-10-25T13:56:00Z) - Sound Event Detection Transformer: An Event-based End-to-End Model for
Sound Event Detection [12.915110466077866]
音のイベント検出(SED)は、監視、ビデオインデックス作成等に広く応用され、注目を集めている。
SEDの既存のモデルは、主にフレームレベルの予測を生成し、それをシーケンスマルチラベル分類問題に変換する。
本稿ではまず,1次元検出変換器 (1D-DETR) について述べる。
SEDの特性から、1D-DETRに音声クエリと1対1のマッチング戦略を追加し、SEDT(Sound Event Detection Transformer)のモデルを作成する。
論文 参考訳(メタデータ) (2021-10-05T12:56:23Z) - Self-training with noisy student model and semi-supervised loss function
for dcase 2021 challenge task 4 [5.117030416610515]
本報告では,DCASE 2021 Challenge Task 4における多声音事象検出(SED)手法を提案する。
提案したSEDモデルは,弱ラベル付きまたは未ラベル付きデータに対する目標ラベルを提供する平均教師モデルと,強ラベルの音響イベントを予測する自己学習型雑音学生モデルとの2段階からなる。
論文 参考訳(メタデータ) (2021-07-06T12:11:16Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。