論文の概要: Active Learning for Sound Event Detection
- arxiv url: http://arxiv.org/abs/2002.05033v2
- Date: Wed, 9 Sep 2020 14:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 19:48:36.682846
- Title: Active Learning for Sound Event Detection
- Title(参考訳): 音響イベント検出のためのアクティブラーニング
- Authors: Shuyang Zhao, Toni Heittola, Tuomas Virtanen
- Abstract要約: 本稿では,音事象検出(SED)のための能動的学習システムを提案する。
本研究の目的は,学習したSEDモデルの精度を限定的なアノテーションで最大化することである。
注目すべきは、ターゲット音イベントが稀なデータセットにおいて、必要なアノテーションの労力を大幅に削減できることだ。
- 参考スコア(独自算出の注目度): 18.750572243562576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an active learning system for sound event detection
(SED). It aims at maximizing the accuracy of a learned SED model with limited
annotation effort. The proposed system analyzes an initially unlabeled audio
dataset, from which it selects sound segments for manual annotation. The
candidate segments are generated based on a proposed change point detection
approach, and the selection is based on the principle of mismatch-first
farthest-traversal. During the training of SED models, recordings are used as
training inputs, preserving the long-term context for annotated segments. The
proposed system clearly outperforms reference methods in the two datasets used
for evaluation (TUT Rare Sound 2017 and TAU Spatial Sound 2019). Training with
recordings as context outperforms training with only annotated segments.
Mismatch-first farthest-traversal outperforms reference sample selection
methods based on random sampling and uncertainty sampling. Remarkably, the
required annotation effort can be greatly reduced on the dataset where target
sound events are rare: by annotating only 2% of the training data, the achieved
SED performance is similar to annotating all the training data.
- Abstract(参考訳): 本稿では,音イベント検出(sed)のためのアクティブ学習システムを提案する。
本研究の目的は,学習したSEDモデルの精度を限定的なアノテーションで最大化することである。
提案するシステムは,まずラベルなしの音声データセットを解析し,その音声セグメントを手動アノテーションで選択する。
提案する変化点検出手法に基づいて候補セグメントを生成し、その選択はミスマッチ・ファースト・トラバーサルの原理に基づいている。
sedモデルのトレーニングの間、記録は訓練入力として使われ、注釈付きセグメントの長期的文脈を保つ。
提案システムは,評価に用いる2つのデータセット(TUT Rare Sound 2017 と TAU Space Sound 2019)において,参照手法よりも明らかに優れている。
記録によるトレーニングは、注釈付きセグメントのみによるトレーニングよりも優れている。
Mismatch-first farthest-traversal はランダムサンプリングと不確実サンプリングに基づく参照サンプル選択法より優れている。
目標音イベントが稀なデータセットでは、必要なアノテーションの労力を大幅に削減することが可能であり、トレーニングデータの2%のみに注釈を付けることで、得られたsed性能は、すべてのトレーニングデータに注釈をつけるのと類似している。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - From Weak to Strong Sound Event Labels using Adaptive Change-Point Detection and Active Learning [11.312115846980602]
音声録音セグメントの弱いラベルアノテーションを機械誘導する適応的変化点検出法(A-CPD)を提案する。
ラベルのない音声記録毎に,アノテーションを導くために使用する確率曲線の導出に予測モデルを用いる。
アノテーション予算の制限により,高品質なラベルを抽出し,A-CPDに好適な結果を示すことができることを示す。
論文 参考訳(メタデータ) (2024-03-13T13:33:35Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Pretraining Representations for Bioacoustic Few-shot Detection using
Supervised Contrastive Learning [10.395255631261458]
バイオ音響応用において、ほとんどのタスクにはラベル付きトレーニングデータはほとんど含まれない。
教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより、スクラッチからリッチな特徴抽出器を学習することができることを示す。
我々は検証セットで63.46%、テストセットで42.7%のFスコアを取得し、DCASEチャレンジで2位となった。
論文 参考訳(メタデータ) (2023-09-02T09:38:55Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - A benchmark of state-of-the-art sound event detection systems evaluated
on synthetic soundscapes [10.512055210540668]
参加者が提案する解は, 目標音の信号-雑音比, 目標音事象の時間的局所化など, 様々なレベル目標に対するロバスト性を解析するものである。
その結果,非ターゲットイベントが存在する場合,システムは短時間イベントを急激に予測する傾向が示唆された。
論文 参考訳(メタデータ) (2022-02-03T09:41:31Z) - Cross-Referencing Self-Training Network for Sound Event Detection in
Audio Mixtures [23.568610919253352]
本稿では,教師なしデータから擬似ラベルを生成するための半教師付き手法を提案する。
DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。
論文 参考訳(メタデータ) (2021-05-27T18:46:59Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。