論文の概要: Cross-Referencing Self-Training Network for Sound Event Detection in
Audio Mixtures
- arxiv url: http://arxiv.org/abs/2105.13392v1
- Date: Thu, 27 May 2021 18:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:24:03.313947
- Title: Cross-Referencing Self-Training Network for Sound Event Detection in
Audio Mixtures
- Title(参考訳): オーディオミックス中の音事象検出のための相互参照自己学習ネットワーク
- Authors: Sangwook Park, David K. Han, Mounya Elhilali
- Abstract要約: 本稿では,教師なしデータから擬似ラベルを生成するための半教師付き手法を提案する。
DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。
- 参考スコア(独自算出の注目度): 23.568610919253352
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sound event detection is an important facet of audio tagging that aims to
identify sounds of interest and define both the sound category and time
boundaries for each sound event in a continuous recording. With advances in
deep neural networks, there has been tremendous improvement in the performance
of sound event detection systems, although at the expense of costly data
collection and labeling efforts. In fact, current state-of-the-art methods
employ supervised training methods that leverage large amounts of data samples
and corresponding labels in order to facilitate identification of sound
category and time stamps of events. As an alternative, the current study
proposes a semi-supervised method for generating pseudo-labels from
unsupervised data using a student-teacher scheme that balances self-training
and cross-training. Additionally, this paper explores post-processing which
extracts sound intervals from network prediction, for further improvement in
sound event detection performance. The proposed approach is evaluated on sound
event detection task for the DCASE2020 challenge. The results of these methods
on both "validation" and "public evaluation" sets of DESED database show
significant improvement compared to the state-of-the art systems in
semi-supervised learning.
- Abstract(参考訳): 音響イベント検出は、興味のある音を識別し、連続録音における各音のカテゴリと時間境界の両方を定義することを目的とした、オーディオタグの重要な側面である。
ディープニューラルネットワークの進歩により、コストのかかるデータ収集とラベル付けの努力を犠牲にして、音響イベント検出システムの性能が大幅に向上した。
実際、現在の最先端の手法では、大量のデータサンプルと対応するラベルを活用して、イベントの音声カテゴリとタイムスタンプの識別を容易にする教師付きトレーニング手法を採用している。
そこで本研究では,非教師データから疑似ラベルを生成する半教師方式を提案し,自己学習とクロストレーニングのバランスをとる学生教師方式を提案する。
さらに,ネットワーク予測から音声区間を抽出する後処理について検討し,音事象検出性能のさらなる向上を図る。
提案手法はDCASE2020チャレンジの音響事象検出タスクに基づいて評価される。
DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Pretraining Representations for Bioacoustic Few-shot Detection using
Supervised Contrastive Learning [10.395255631261458]
バイオ音響応用において、ほとんどのタスクにはラベル付きトレーニングデータはほとんど含まれない。
教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより、スクラッチからリッチな特徴抽出器を学習することができることを示す。
我々は検証セットで63.46%、テストセットで42.7%のFスコアを取得し、DCASEチャレンジで2位となった。
論文 参考訳(メタデータ) (2023-09-02T09:38:55Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - A benchmark of state-of-the-art sound event detection systems evaluated
on synthetic soundscapes [10.512055210540668]
参加者が提案する解は, 目標音の信号-雑音比, 目標音事象の時間的局所化など, 様々なレベル目標に対するロバスト性を解析するものである。
その結果,非ターゲットイベントが存在する場合,システムは短時間イベントを急激に予測する傾向が示唆された。
論文 参考訳(メタデータ) (2022-02-03T09:41:31Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - Active Learning for Sound Event Detection [18.750572243562576]
本稿では,音事象検出(SED)のための能動的学習システムを提案する。
本研究の目的は,学習したSEDモデルの精度を限定的なアノテーションで最大化することである。
注目すべきは、ターゲット音イベントが稀なデータセットにおいて、必要なアノテーションの労力を大幅に削減できることだ。
論文 参考訳(メタデータ) (2020-02-12T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。