論文の概要: Peer Collaborative Learning for Polyphonic Sound Event Detection
- arxiv url: http://arxiv.org/abs/2110.03511v1
- Date: Thu, 7 Oct 2021 14:47:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:20:13.291893
- Title: Peer Collaborative Learning for Polyphonic Sound Event Detection
- Title(参考訳): 多声音イベント検出のための相互協調学習
- Authors: Hayato Endo and Hiromitsu Nishizaki
- Abstract要約: 本稿では,ピアコラボレーティブ・ラーニング (PCL) と呼ばれる半教師付き学習が,ポリフォニック・サウンド・イベント検出タスクに適用可能であることを述べる。
提案したPCLモデルをDCASE 2019 Task 4データセットを用いて評価し,ベースラインモデルと比較して約10%のF1スコア改善を実現した。
- 参考スコア(独自算出の注目度): 3.325054486984015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes that semi-supervised learning called peer collaborative
learning (PCL) can be applied to the polyphonic sound event detection (PSED)
task, which is one of the tasks in the Detection and Classification of Acoustic
Scenes and Events (DCASE) challenge. Many deep learning models have been
studied to find out what kind of sound events occur where and for how long in a
given audio clip. The characteristic of PCL used in this paper is the
combination of ensemble-based knowledge distillation into sub-networks and
student-teacher model-based knowledge distillation, which can train a robust
PSED model from a small amount of strongly labeled data, weakly labeled data,
and a large amount of unlabeled data. We evaluated the proposed PCL model using
the DCASE 2019 Task 4 datasets and achieved an F1-score improvement of about
10% compared to the baseline model.
- Abstract(参考訳): 本稿では,ピアコラボレーティブ・ラーニング (pcl) と呼ばれる半教師付き学習を,音響シーン・イベント検出 (dcase) 課題における課題の一つである多音音響イベント検出 (psed) タスクに適用できることを示す。
多くのディープラーニングモデルが、特定の音声クリップ内のどの音イベントがいつ、どれくらいの期間起こるかを調べるために研究されている。
本論文で用いたPCLの特徴は,サブネットワークへのアンサンブルベースの知識蒸留と学生教師モデルに基づく知識蒸留の組み合わせであり,少数の強ラベル付きデータ,弱いラベル付きデータ,および大量の未ラベルデータからロバストPSEDモデルを訓練することができる。
提案したPCLモデルをDCASE 2019 Task 4データセットを用いて評価し,ベースラインモデルと比較して約10%のF1スコア改善を実現した。
関連論文リスト
- tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models [2.9619090219410515]
本稿では,コントラッシブ言語-オーディオ事前学習モデルの複雑さを軽減する方法について検討する。
第一原理から一元蒸留損失を導出し、共有多モードラテント空間の次元性をいかに小さくするかを探求する。
TinyCLAPは、ゼロショット分類性能において、オリジナルのMicrosoft CLAPパラメータの6%しか使用していない(5%未満)。
論文 参考訳(メタデータ) (2023-11-24T14:45:53Z) - Pretraining Representations for Bioacoustic Few-shot Detection using
Supervised Contrastive Learning [10.395255631261458]
バイオ音響応用において、ほとんどのタスクにはラベル付きトレーニングデータはほとんど含まれない。
教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより、スクラッチからリッチな特徴抽出器を学習することができることを示す。
我々は検証セットで63.46%、テストセットで42.7%のFスコアを取得し、DCASEチャレンジで2位となった。
論文 参考訳(メタデータ) (2023-09-02T09:38:55Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition [70.00984078351927]
本稿では,多ラベル分類と長期学習の特徴に基づく雑音の低減に焦点をあてる。
よりクリーンなサンプルを合成し,マルチラベルノイズを直接低減するStitch-Up拡張を提案する。
ヘテロジニアス・コラーニング・フレームワークは、長い尾の分布とバランスの取れた分布の不整合を活用するためにさらに設計されている。
論文 参考訳(メタデータ) (2023-07-03T09:20:28Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Knowledge Distillation and Data Selection for Semi-Supervised Learning
in CTC Acoustic Models [9.496916045581736]
半教師付き学習 (SSL) は, 音声認識システムの精度を向上させるために, ラベルのないデータを活用することを目的とした研究の活発な領域である。
本研究の目的は, 不正データのプールからサンプルを選択する際に, 適切な基準が重要であることを確かめることである。
我々は、この疑問に答え、異なるサンプリング戦略の効果を定量化するために、異なるデータ選択方法の実証的研究を行う。
論文 参考訳(メタデータ) (2020-08-10T07:00:08Z) - Incremental Learning Algorithm for Sound Event Detection [0.8399688944263841]
本稿では,事前学習したモデルから新たなターゲットモデルへの知識移行の問題に対処するため,音事象検出システム(SED)の新たな学習戦略を提案する。
学習済みの知識をソースモデルからターゲットモデルに移行するために、ソースモデルのトップにニューラルアダプタが使用される。
ニューラルアダプタ層は、トレーニングデータを最小限にして新たな音イベントを学習し、ソースモデルと同様の学習済みの音イベントの性能を維持することを目標モデルに促す。
論文 参考訳(メタデータ) (2020-03-26T22:32:11Z) - Active Learning for Sound Event Detection [18.750572243562576]
本稿では,音事象検出(SED)のための能動的学習システムを提案する。
本研究の目的は,学習したSEDモデルの精度を限定的なアノテーションで最大化することである。
注目すべきは、ターゲット音イベントが稀なデータセットにおいて、必要なアノテーションの労力を大幅に削減できることだ。
論文 参考訳(メタデータ) (2020-02-12T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。