論文の概要: Few-shot bioacoustic event detection at the DCASE 2023 challenge
- arxiv url: http://arxiv.org/abs/2306.09223v1
- Date: Thu, 15 Jun 2023 15:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 14:07:54.679733
- Title: Few-shot bioacoustic event detection at the DCASE 2023 challenge
- Title(参考訳): dcase 2023チャレンジにおける数発バイオ音響イベント検出
- Authors: Ines Nolasco, Burooj Ghani, Shubhr Singh, Ester Vida\~na-Vila, Helen
Whitehead, Emily Grout, Michael Emmerson, Frants Jensen, Ivan Kiskin, Joe
Morford, Ariana Strandburg-Peshkin, Lisa Gill, Hanna Pamu{\l}a, Vincent
Lostanlen, Dan Stowell
- Abstract要約: この課題は、今年3回目となるDCASEチャレンジの一環として実施された。
2023年、Fスコアが最大63%に達する6つの異なるチームから、ショットタスクが提出された。
Fスコアの結果は着実に改善されている(40%から60%から63%)。
- 参考スコア(独自算出の注目度): 5.769642475512074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot bioacoustic event detection consists in detecting sound events of
specified types, in varying soundscapes, while having access to only a few
examples of the class of interest. This task ran as part of the DCASE challenge
for the third time this year with an evaluation set expanded to include new
animal species, and a new rule: ensemble models were no longer allowed. The
2023 few shot task received submissions from 6 different teams with F-scores
reaching as high as 63% on the evaluation set. Here we describe the task,
focusing on describing the elements that differed from previous years. We also
take a look back at past editions to describe how the task has evolved. Not
only have the F-score results steadily improved (40% to 60% to 63%), but the
type of systems proposed have also become more complex. Sound event detection
systems are no longer simple variations of the baselines provided: multiple
few-shot learning methodologies are still strong contenders for the task.
- Abstract(参考訳): 少数ショットのバイオ音響イベント検出は、特定のタイプの音響イベントを様々なサウンドスケープで検出し、関心のあるクラスのいくつかの例のみにアクセスできる。
この作業は、今年3回目となるDCASEチャレンジの一環として実施され、新たな動物種を含む評価セットが拡大され、新たなルールが導入された。
2023年の少数のショットタスクは、評価セットでfスコアが最大63%に達する6つの異なるチームから応募を受けた。
ここでは,前年と異なる要素を記述することに焦点を当てたタスクについて述べる。
また、過去のエディションを振り返って、タスクがどのように進化したかを説明します。
f-scoreの結果は着実に改善され(40%から60%から63%)、提案されたシステムの種類も複雑になった。
音声イベント検出システムは、提供されたベースラインの単純なバリエーションではない。
関連論文リスト
- Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Multitask frame-level learning for few-shot sound event detection [46.32294691870714]
本稿では,限られたサンプルを用いて音声イベントを自動的に認識・分類することを目的とした音声イベント検出(SED)について述べる。
本稿では,データ拡張のためのリニアタイミングマスクであるTimeFilterAugと,マルチタスクフレームレベルのSEDフレームワークを提案する。
提案手法はFスコア63.8%を達成し, バイオ音響事象検出カテゴリーにおける第1位を確保した。
論文 参考訳(メタデータ) (2024-03-17T05:00:40Z) - Regularized Contrastive Pre-training for Few-shot Bioacoustic Sound
Detection [10.395255631261458]
我々は、教師付きコントラスト事前訓練を規則化し、トレーニング中に動物の音が見えない新しい目標タスクにうまく伝達できる特徴を学習する。
本研究の目的は, 単純かつ効果的な枠組みを提案することにより, バイオアコースティックな音場検出に参入バーを低くすることである。
論文 参考訳(メタデータ) (2023-09-16T12:11:11Z) - Pretraining Representations for Bioacoustic Few-shot Detection using
Supervised Contrastive Learning [10.395255631261458]
バイオ音響応用において、ほとんどのタスクにはラベル付きトレーニングデータはほとんど含まれない。
教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより、スクラッチからリッチな特徴抽出器を学習することができることを示す。
我々は検証セットで63.46%、テストセットで42.7%のFスコアを取得し、DCASEチャレンジで2位となった。
論文 参考訳(メタデータ) (2023-09-02T09:38:55Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Few-shot bioacoustic event detection at the DCASE 2022 challenge [0.0]
わずかにラベル付き例があるにも関わらず、音声イベント検出は音イベントを検出するタスクである。
本稿では,DCASE 2022チャレンジに含まれるバイオアコースティック音響イベント検出タスクの第2版の概要について述べる。
最も高いFスコアは、評価セットの60%であり、昨年の版よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-07-14T09:33:47Z) - Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video
Parsing [52.2231419645482]
本稿では,弱教師付き音声・視覚ビデオ解析タスクについて述べる。
それぞれのモードに属する全ての事象を認識し、時間的境界をローカライズすることを目的としている。
論文 参考訳(メタデータ) (2022-04-25T11:41:17Z) - Extensively Matching for Few-shot Learning Event Detection [66.31312496170139]
超視覚的な学習設定下でのイベント検出モデルは、新しいイベントタイプへの転送に失敗する。
イベント検出では、あまり画像学習は行われていない。
sup-port の例にマッチする2つのノベルロス因子を提案し,モデルにより多くのトレーニング信号を与える。
論文 参考訳(メタデータ) (2020-06-17T18:30:30Z) - Any-Shot Object Detection [81.88153407655334]
「アニーショット検出」とは、全く見えず、数発のカテゴリが推論中に同時に共起できる場所である。
我々は、ゼロショットと少数ショットの両方のオブジェクトクラスを同時に検出できる、統合された任意のショット検出モデルを提案する。
我々のフレームワークは、ゼロショット検出とFewショット検出タスクにのみ使用できる。
論文 参考訳(メタデータ) (2020-03-16T03:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。