論文の概要: BirdSet: A Multi-Task Benchmark for Classification in Computational Avian Bioacoustics
- arxiv url: http://arxiv.org/abs/2403.10380v2
- Date: Mon, 8 Apr 2024 20:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 19:17:55.316263
- Title: BirdSet: A Multi-Task Benchmark for Classification in Computational Avian Bioacoustics
- Title(参考訳): BirdSet: 計算鳥類バイオ音響学の分類のためのマルチタスクベンチマーク
- Authors: Lukas Rauch, Raphael Schwinger, Moritz Wirth, René Heinrich, Jonas Lange, Stefan Kahl, Bernhard Sick, Sven Tomforde, Christoph Scholz,
- Abstract要約: 深層学習モデルは、環境の健康と生物多様性を診断するために、鳥類のバイオ音響学において強力なツールとして登場した。
研究におけるデータの断片化と不透明度は、モデル性能の包括的な評価を複雑にする。
本研究では,鳥の鳴き声の分類のための総合的なアプローチで研究活動を統合する統一的なフレームワークであるBirdSetベンチマークを提案する。
- 参考スコア(独自算出の注目度): 1.9963917561183286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) models have emerged as a powerful tool in avian bioacoustics to diagnose environmental health and biodiversity. However, inconsistencies in research pose notable challenges hindering progress. Reliable DL models need to analyze bird calls flexibly across various species and environments to fully harness the potential of bioacoustics in a cost-effective passive acoustic monitoring scenario. Data fragmentation and opacity across studies complicate a comprehensive evaluation of model performance. To overcome these challenges, we present the BirdSet benchmark, a unified framework consolidating research efforts with a holistic approach for the classification of bird vocalizations in computational avian bioacoustics. BirdSet aggregates open-source bird recordings into a curated dataset collection. This unified approach provides an in-depth understanding of model performance and identifies potential shortcomings across different tasks. By providing baseline results of current models, we aim to facilitate comparability and ease accessibility for newcomers. Additionally, we release an open-source package \benchmark containing a comprehensive data pipeline that enables easy and fast model evaluation, available at https://github.com/DBD-research-group/BirdSet.
- Abstract(参考訳): 深層学習(DL)モデルは、環境の健康と生物多様性を診断するために、鳥類のバイオ音響学において強力なツールとして登場した。
しかし、研究の不整合は、進歩を妨げる顕著な課題を引き起こしている。
信頼性の高いDLモデルは、費用対効果の高い受動的音響監視シナリオにおいて生体音響学の可能性を完全に活用するために、様々な種や環境の鳥の鳴き声を柔軟に分析する必要がある。
研究におけるデータの断片化と不透明度は、モデル性能の包括的な評価を複雑にする。
これらの課題を克服するために,我々は,鳥の鳴き声の分類のための総合的なアプローチで研究活動を統合する統一的なフレームワークであるBirdSetベンチマークを提案する。
BirdSetは、オープンソースのバードレコーディングをキュレートされたデータセットコレクションに集約する。
この統一されたアプローチは、モデルパフォーマンスの深い理解を提供し、異なるタスクにまたがる潜在的な欠点を特定する。
現行モデルのベースライン結果を提供することで,新参者に対するコンパラビリティとアクセシビリティの容易化を図る。
さらに、私たちは、https://github.com/DBD-research-group/BirdSetで利用可能な、簡単かつ高速なモデル評価を可能にする包括的なデータパイプラインを含む、オープンソースのパッケージ \benchmark をリリースしました。
関連論文リスト
- Self-supervised Learning for Acoustic Few-Shot Classification [10.180992026994739]
我々は、CNNに基づく前処理と状態空間モデル(SSM)に基づく特徴抽出を組み合わせた新しいアーキテクチャを導入、評価する。
実際のタスクデータに対するコントラスト学習と,それに続くラベル付きデータによる微調整を用いて,このアーキテクチャを事前学習する。
本評価は, 数発の分類問題において, 最先端のアーキテクチャよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-15T07:45:11Z) - AudioProtoPNet: An interpretable deep learning model for bird sound classification [1.49199020343864]
本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。
これは本質的に解釈可能なモデルであり、埋め込みを抽出するためにConvNeXtのバックボーンを使用する。
このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
論文 参考訳(メタデータ) (2024-04-16T09:37:41Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Transferable Models for Bioacoustics with Human Language Supervision [0.0]
BioLingualは、対照的な言語-オーディオ事前学習に基づくバイオ音響学の新しいモデルである。
分類群にまたがる1000種以上の呼び出しを識別し、完全なバイオ音響タスクをゼロショットで実行し、自然のテキストクエリから動物の発声記録を検索する。
論文 参考訳(メタデータ) (2023-08-09T14:22:18Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Noisy Label Learning for Large-scale Medical Image Classification [37.79118840129632]
我々は,最先端のノイズラベルマルチクラストレーニングアプローチを適用し,データセットの胸部x線14のマルチラベル分類器を学習する。
Chest X-ray14 のラベルノイズの大半が 'No Finding' クラスに存在することを示し、これはラベルミスによる 14 疾患の 1 つ以上を含む可能性が高いクラスであるため直感的に正しい。
論文 参考訳(メタデータ) (2021-03-06T07:42:36Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。