論文の概要: BirdSet: A Large-Scale Dataset for Audio Classification in Avian Bioacoustics
- arxiv url: http://arxiv.org/abs/2403.10380v4
- Date: Thu, 10 Oct 2024 08:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:27:48.886456
- Title: BirdSet: A Large-Scale Dataset for Audio Classification in Avian Bioacoustics
- Title(参考訳): BirdSet:鳥のバイオ音響学におけるオーディオ分類のための大規模データセット
- Authors: Lukas Rauch, Raphael Schwinger, Moritz Wirth, René Heinrich, Denis Huseljic, Marek Herde, Jonas Lange, Stefan Kahl, Bernhard Sick, Sven Tomforde, Christoph Scholz,
- Abstract要約: $texttBirdSet$は、鳥のバイオ音響に焦点を当てたオーディオ分類のための大規模なベンチマークデータセットである。
$texttBirdSet$はAudioSetを上回り、1万近いクラスから6800時間以上録音する。
我々は,3つの異なる学習シナリオにまたがる多ラベル分類において,よく知られた6つのDLモデルをベンチマークした。
- 参考スコア(独自算出の注目度): 2.2399415927517414
- License:
- Abstract: Deep learning (DL) has greatly advanced audio classification, yet the field is limited by the scarcity of large-scale benchmark datasets that have propelled progress in other domains. While AudioSet aims to bridge this gap as a universal-domain dataset, its restricted accessibility and lack of diverse real-world evaluation use cases challenge its role as the primary resource. Therefore, we introduce $\texttt{BirdSet}$, a large-scale benchmark dataset for audio classification focusing on avian bioacoustics. $\texttt{BirdSet}$ surpasses AudioSet with over 6,800 recording hours ($\uparrow\!17\%$) from nearly 10,000 classes ($\uparrow\!18\times$) for training and more than 400 hours ($\uparrow\!7\times$) across eight strongly labeled evaluation datasets. It serves as a versatile resource for use cases such as multi-label classification, covariate shift or self-supervised learning. We benchmark six well-known DL models in multi-label classification across three distinct training scenarios and outline further evaluation use cases in audio classification. We host our dataset on Hugging Face for easy accessibility and offer an extensive codebase to reproduce our results.
- Abstract(参考訳): ディープラーニング(DL)は、非常に高度なオーディオ分類を持っているが、他の領域の進歩を促す大規模なベンチマークデータセットの不足によって、この分野は制限されている。
AudioSetはこのギャップをユニバーサルドメインデータセットとして埋めることを目的としているが、アクセシビリティの制限と多様な実世界の評価ユースケースの欠如は、主要なリソースとしての役割に挑戦している。
そこで我々は,鳥の生体音響に焦点を当てた音声分類のための大規模ベンチマークデータセットである$\texttt{BirdSet}$を紹介した。
$\texttt{BirdSet}$はAudioSetを6800時間超で上回っている。
1万近いクラスから 17 %$!
トレーニングには18\times$)、400時間以上(\uparrow\!
7\times$)は、8つの強くラベル付けされた評価データセットにまたがった。
マルチラベル分類、共変量シフト、自己教師型学習などのユースケースのための汎用的なリソースとして機能する。
マルチラベル分類における6つの有名なDLモデルを3つの異なる訓練シナリオでベンチマークし、音声分類におけるさらなる評価ユースケースを概説した。
私たちはHugging Faceにデータセットをホストしてアクセシビリティを容易に提供し、その結果を再現するための広範なコードベースを提供しています。
関連論文リスト
- Towards Deep Active Learning in Avian Bioacoustics [1.7522552085069194]
アクティブラーニング(AL)は、アノテーションのコストを削減し、ラベル付けに最も有用なインスタンスをクエリすることで、さまざまなシナリオへの適応を高速化する。
本稿では、ALのアプローチを概説し、重要な課題を紹介し、小規模のパイロットスタディを実施している。
論文 参考訳(メタデータ) (2024-06-26T08:43:05Z) - Automated Bioacoustic Monitoring for South African Bird Species on Unlabeled Data [1.3506669466260703]
このフレームワークは、選択された鳥類種の利用可能なプラットフォームからラベル付きデータを自動抽出する。
ラベル付きデータは、環境音やノイズを含む録音に埋め込まれ、畳み込みリカレントニューラルネットワーク(CRNN)モデルのトレーニングに使用された。
適応SED-CRNNモデルはF1スコア0.73に達し、ノイズの多い実世界の条件下で効率を実証した。
論文 参考訳(メタデータ) (2024-06-19T14:14:24Z) - animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics [2.1019401515721583]
本稿では, スパースおよびアンバランスな生体音響データに適した, 完全に解釈可能なトランスフォーマーモデルと自己教師型トレーニングスキームである animal2vec フレームワークを提案する。
MeerKAT: Meerkat Kalahari Audio Transcriptsは、バイオブロガーが収集したオーディオを含む大規模なデータセットで、1068hを超える自由配置ミーアカートを公開しています。
両データセットの最新の結果について報告し,ラベル付きトレーニングデータのAnimal2vecの少数ショット機能の評価を行った。
論文 参考訳(メタデータ) (2024-06-03T12:11:01Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Active Bird2Vec: Towards End-to-End Bird Sound Monitoring with
Transformers [2.404305970432934]
自己教師付き(SSL)と深層能動学習(DAL)を組み合わせた鳥音モニタリングにおけるエンドツーエンド学習へのシフトを提案する。
我々は,従来のスペクトログラム変換をバイパスし,直接生音声処理を実現することを目的としている。
論文 参考訳(メタデータ) (2023-08-14T13:06:10Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Recognizing bird species in diverse soundscapes under weak supervision [0.2148535041822524]
複雑で多様なサウンドスケープにおける鳥の発声に対するロバストな分類手法を提案し,BirdCLEF 2021チャレンジにおいて第2位を獲得した。
本稿では,新しい拡張法で補足された効率的なモデリングとトレーニングルーチンを用いることで,事前学習した畳み込みニューラルネットワークをフル活用する方法を説明する。
論文 参考訳(メタデータ) (2021-07-16T06:54:38Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。