論文の概要: Pretraining Representations for Bioacoustic Few-shot Detection using
Supervised Contrastive Learning
- arxiv url: http://arxiv.org/abs/2309.00878v1
- Date: Sat, 2 Sep 2023 09:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 00:36:18.362126
- Title: Pretraining Representations for Bioacoustic Few-shot Detection using
Supervised Contrastive Learning
- Title(参考訳): 教師付きコントラスト学習を用いたバイオ音響画像検出のための事前学習
- Authors: Ilyass Moummad, Romain Serizel, Nicolas Farrugia
- Abstract要約: バイオ音響応用において、ほとんどのタスクにはラベル付きトレーニングデータはほとんど含まれない。
教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより、スクラッチからリッチな特徴抽出器を学習することができることを示す。
我々は検証セットで63.46%、テストセットで42.7%のFスコアを取得し、DCASEチャレンジで2位となった。
- 参考スコア(独自算出の注目度): 10.395255631261458
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep learning has been widely used recently for sound event detection and
classification. Its success is linked to the availability of sufficiently large
datasets, possibly with corresponding annotations when supervised learning is
considered. In bioacoustic applications, most tasks come with few labelled
training data, because annotating long recordings is time consuming and costly.
Therefore supervised learning is not the best suited approach to solve
bioacoustic tasks. The bioacoustic community recasted the problem of sound
event detection within the framework of few-shot learning, i.e. training a
system with only few labeled examples. The few-shot bioacoustic sound event
detection task in the DCASE challenge focuses on detecting events in long audio
recordings given only five annotated examples for each class of interest. In
this paper, we show that learning a rich feature extractor from scratch can be
achieved by leveraging data augmentation using a supervised contrastive
learning framework. We highlight the ability of this framework to transfer well
for five-shot event detection on previously unseen classes in the training
data. We obtain an F-score of 63.46\% on the validation set and 42.7\% on the
test set, ranking second in the DCASE challenge. We provide an ablation study
for the critical choices of data augmentation techniques as well as for the
learning strategy applied on the training set.
- Abstract(参考訳): 深層学習は近年,音響事象の検出と分類に広く利用されている。
その成功は、十分に大きなデータセットが利用可能であることと関連している。
バイオ音響アプリケーションでは、長い記録に注釈を付けるのに時間がかかり、費用がかかるため、ほとんどのタスクにラベル付きトレーニングデータはほとんどない。
したがって、教師付き学習は生体音響課題を解決するのに最適ではない。
バイオアコースティックなコミュニティは、数発の学習の枠組み、すなわちわずかにラベル付き例でシステムを訓練する枠組みの中で、音声イベント検出の問題を再放送した。
DCASEチャレンジのバイオアコースティックな音響イベント検出タスクは、興味のあるクラス毎に5つの注釈付き例しか与えられていないロングオーディオ録音におけるイベントの検出に焦点を当てている。
本稿では,教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより,スクラッチからリッチな特徴抽出器を学習することができることを示す。
トレーニングデータ中の未確認クラスの5ショットイベント検出において,このフレームワークが良好に転送できることを強調した。
検証セットで63.46\%、テストセットで42.7\%のFスコアを取得し、DCASEチャレンジで2位となった。
本稿では,データ拡張技術の重要な選択と,トレーニングセットに適用される学習戦略について,アブレーション研究を行う。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Regularized Contrastive Pre-training for Few-shot Bioacoustic Sound
Detection [10.395255631261458]
我々は、教師付きコントラスト事前訓練を規則化し、トレーニング中に動物の音が見えない新しい目標タスクにうまく伝達できる特徴を学習する。
本研究の目的は, 単純かつ効果的な枠組みを提案することにより, バイオアコースティックな音場検出に参入バーを低くすることである。
論文 参考訳(メタデータ) (2023-09-16T12:11:11Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Few-shot bioacoustic event detection at the DCASE 2022 challenge [0.0]
わずかにラベル付き例があるにも関わらず、音声イベント検出は音イベントを検出するタスクである。
本稿では,DCASE 2022チャレンジに含まれるバイオアコースティック音響イベント検出タスクの第2版の概要について述べる。
最も高いFスコアは、評価セットの60%であり、昨年の版よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-07-14T09:33:47Z) - Cross-Referencing Self-Training Network for Sound Event Detection in
Audio Mixtures [23.568610919253352]
本稿では,教師なしデータから擬似ラベルを生成するための半教師付き手法を提案する。
DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。
論文 参考訳(メタデータ) (2021-05-27T18:46:59Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Extensively Matching for Few-shot Learning Event Detection [66.31312496170139]
超視覚的な学習設定下でのイベント検出モデルは、新しいイベントタイプへの転送に失敗する。
イベント検出では、あまり画像学習は行われていない。
sup-port の例にマッチする2つのノベルロス因子を提案し,モデルにより多くのトレーニング信号を与える。
論文 参考訳(メタデータ) (2020-06-17T18:30:30Z) - Active Learning for Sound Event Detection [18.750572243562576]
本稿では,音事象検出(SED)のための能動的学習システムを提案する。
本研究の目的は,学習したSEDモデルの精度を限定的なアノテーションで最大化することである。
注目すべきは、ターゲット音イベントが稀なデータセットにおいて、必要なアノテーションの労力を大幅に削減できることだ。
論文 参考訳(メタデータ) (2020-02-12T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。