論文の概要: Few-shot bioacoustic event detection at the DCASE 2022 challenge
- arxiv url: http://arxiv.org/abs/2207.07911v1
- Date: Thu, 14 Jul 2022 09:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 07:43:24.005693
- Title: Few-shot bioacoustic event detection at the DCASE 2022 challenge
- Title(参考訳): dcase 2022チャレンジにおける数発バイオ音響イベント検出
- Authors: I. Nolasco, S. Singh, E. Vidana-Villa, E. Grout, J. Morford, M.
Emmerson, F. Jensens, H. Whitehead, I. Kiskin, A. Strandburg-Peshkin, L.
Gill, H. Pamula, V. Lostanlen, V. Morfi, D. Stowell
- Abstract要約: わずかにラベル付き例があるにも関わらず、音声イベント検出は音イベントを検出するタスクである。
本稿では,DCASE 2022チャレンジに含まれるバイオアコースティック音響イベント検出タスクの第2版の概要について述べる。
最も高いFスコアは、評価セットの60%であり、昨年の版よりも大幅に改善された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot sound event detection is the task of detecting sound events, despite
having only a few labelled examples of the class of interest. This framework is
particularly useful in bioacoustics, where often there is a need to annotate
very long recordings but the expert annotator time is limited. This paper
presents an overview of the second edition of the few-shot bioacoustic sound
event detection task included in the DCASE 2022 challenge. A detailed
description of the task objectives, dataset, and baselines is presented,
together with the main results obtained and characteristics of the submitted
systems. This task received submissions from 15 different teams from which 13
scored higher than the baselines. The highest F-score was of 60% on the
evaluation set, which leads to a huge improvement over last year's edition.
Highly-performing methods made use of prototypical networks, transductive
learning, and addressed the variable length of events from all target classes.
Furthermore, by analysing results on each of the subsets we can identify the
main difficulties that the systems face, and conclude that few-show bioacoustic
sound event detection remains an open challenge.
- Abstract(参考訳): 音のイベント検出は、興味のクラスを示すいくつかの例があるにもかかわらず、音のイベントを検出するタスクである。
この枠組みは生体音響学において特に有用であり、非常に長い記録に注釈を付ける必要がある場合が多いが、専門家の注釈時間は限られている。
本稿では,DCASE 2022チャレンジに含まれるバイオアコースティック音響イベント検出タスクの第2版の概要について述べる。
タスクの目的、データセット、ベースラインに関する詳細な説明と、得られた主な結果と、提出されたシステムの特徴を提示する。
このタスクは15の異なるチームから提出され、ベースラインよりも13のスコアが高かった。
最も高いFスコアは、評価セットの60%であり、昨年の版よりも大幅に改善された。
高パフォーマンスな手法では、先駆的ネットワーク、トランスダクティブラーニングを使用し、すべてのターゲットクラスからのイベントの可変長に対処した。
さらに, 各サブセットについて結果を解析することにより, システムに直面する主な難しさを識別し, バイオアコースティックな音響事象検出が未確認の課題であることを示す。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Multitask frame-level learning for few-shot sound event detection [46.32294691870714]
本稿では,限られたサンプルを用いて音声イベントを自動的に認識・分類することを目的とした音声イベント検出(SED)について述べる。
本稿では,データ拡張のためのリニアタイミングマスクであるTimeFilterAugと,マルチタスクフレームレベルのSEDフレームワークを提案する。
提案手法はFスコア63.8%を達成し, バイオ音響事象検出カテゴリーにおける第1位を確保した。
論文 参考訳(メタデータ) (2024-03-17T05:00:40Z) - Pretraining Representations for Bioacoustic Few-shot Detection using
Supervised Contrastive Learning [10.395255631261458]
バイオ音響応用において、ほとんどのタスクにはラベル付きトレーニングデータはほとんど含まれない。
教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより、スクラッチからリッチな特徴抽出器を学習することができることを示す。
我々は検証セットで63.46%、テストセットで42.7%のFスコアを取得し、DCASEチャレンジで2位となった。
論文 参考訳(メタデータ) (2023-09-02T09:38:55Z) - Few-shot bioacoustic event detection at the DCASE 2023 challenge [5.769642475512074]
この課題は、今年3回目となるDCASEチャレンジの一環として実施された。
2023年、Fスコアが最大63%に達する6つの異なるチームから、ショットタスクが提出された。
Fスコアの結果は着実に改善されている(40%から60%から63%)。
論文 参考訳(メタデータ) (2023-06-15T15:59:26Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video
Parsing [52.2231419645482]
本稿では,弱教師付き音声・視覚ビデオ解析タスクについて述べる。
それぞれのモードに属する全ての事象を認識し、時間的境界をローカライズすることを目的としている。
論文 参考訳(メタデータ) (2022-04-25T11:41:17Z) - A benchmark of state-of-the-art sound event detection systems evaluated
on synthetic soundscapes [10.512055210540668]
参加者が提案する解は, 目標音の信号-雑音比, 目標音事象の時間的局所化など, 様々なレベル目標に対するロバスト性を解析するものである。
その結果,非ターゲットイベントが存在する場合,システムは短時間イベントを急激に予測する傾向が示唆された。
論文 参考訳(メタデータ) (2022-02-03T09:41:31Z) - Cross-Referencing Self-Training Network for Sound Event Detection in
Audio Mixtures [23.568610919253352]
本稿では,教師なしデータから擬似ラベルを生成するための半教師付き手法を提案する。
DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。
論文 参考訳(メタデータ) (2021-05-27T18:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。