論文の概要: Can Masked Autoencoders Also Listen to Birds?
- arxiv url: http://arxiv.org/abs/2504.12880v1
- Date: Thu, 17 Apr 2025 12:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 19:07:06.681511
- Title: Can Masked Autoencoders Also Listen to Birds?
- Title(参考訳): オートエンコーダーは鳥の音も聴けるのか?
- Authors: Lukas Rauch, Ilyass Moummad, René Heinrich, Alexis Joly, Bernhard Sick, Christoph Scholz,
- Abstract要約: AudioSetで事前訓練されたmasked Autoencoders (MAEs)は、特殊なドメインのきめ細かい音響特性を捉えることができない。
本研究では,大規模なBirdSetデータセットに基づいて事前訓練したドメイン特化MAEであるBird-MAEを紹介する。
- 参考スコア(独自算出の注目度): 2.430300340530418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Autoencoders (MAEs) pretrained on AudioSet fail to capture the fine-grained acoustic characteristics of specialized domains such as bioacoustic monitoring. Bird sound classification is critical for assessing environmental health, yet general-purpose models inadequately address its unique acoustic challenges. To address this, we introduce Bird-MAE, a domain-specialized MAE pretrained on the large-scale BirdSet dataset. We explore adjustments to pretraining, fine-tuning and utilizing frozen representations. Bird-MAE achieves state-of-the-art results across all BirdSet downstream tasks, substantially improving multi-label classification performance compared to the general-purpose Audio-MAE baseline. Additionally, we propose prototypical probing, a parameter-efficient method for leveraging MAEs' frozen representations. Bird-MAE's prototypical probes outperform linear probing by up to 37\% in MAP and narrow the gap to fine-tuning to approximately 3\% on average on BirdSet.
- Abstract(参考訳): AudioSetで事前訓練されたmasked Autoencoders (MAEs)は、バイオ音響モニタリングのような特殊なドメインのきめ細かい音響特性を捉えることができない。
鳥の音の分類は環境の健全性を評価するために重要であるが、汎用モデルは、その固有の音響的課題に不十分に対処する。
そこで本稿では,大規模なBirdSetデータセット上で事前訓練されたドメイン特化MAEであるBird-MAEを紹介する。
凍結表現の事前学習、微調整、活用のための調整について検討する。
Bird-MAEは、すべてのBirdSetダウンストリームタスクの最先端結果を実現し、汎用Audio-MAEベースラインと比較して、マルチラベル分類性能を大幅に向上させる。
さらに,MAEの凍結表現を利用したパラメータ効率のよいプロトタイプ探索法を提案する。
Bird-MAE の原型プローブは、MAP において最大37 % の線形プローブを上回り、そのギャップを、BirdSet で平均 3 % まで狭めている。
関連論文リスト
- An Automated Pipeline for Few-Shot Bird Call Classification: A Case Study with the Tooth-Billed Pigeon [0.6282171844772422]
本稿では,BirdNETやPerchのような大規模公開分類器から欠落した希少種を対象としたワンショットバードコール自動分類パイプラインを提案する。
我々は,大型鳥類分類網の埋め込み空間を活用し,コサイン類似性を用いた分類器を開発し,フィルタリングと事前処理技術を組み合わせた。
最終モデルは1.0リコールと0.95の精度で歯を磨いたハトの鳴き声を検知し、現場での使用が現実的になった。
論文 参考訳(メタデータ) (2025-04-22T21:21:41Z) - A Bird Song Detector for improving bird identification through Deep Learning: a case study from Doñana [2.7924253850013416]
ドナ国立公園(西スペイン)における鳥声自動識別パイプラインの開発
9ヶ所の生息地から461分間の音声を手動でアノテートし,34の授業で3,749のアノテーションを得た。
分類前のバード・ソング・ディテクターの適用により種識別が向上し、鳥類が検出されたセグメントのみを分析する場合、すべての分類モデルが改善された。
論文 参考訳(メタデータ) (2025-03-19T13:19:06Z) - NBM: an Open Dataset for the Acoustic Monitoring of Nocturnal Migratory Birds in Europe [0.0]
この研究は、西太平洋の117種から13,359種の注釈付き発声を収集した夜行性鳥類移動データセットを提示する。
このデータセットには正確な時間と頻度のアノテーションが含まれており、フランス全土の何十人もの鳥愛好家によって集められている。
特に,音声データの処理に適した2段階の深層物体検出モデルを訓練することにより,本データベースの有用性を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:55:45Z) - Advanced Framework for Animal Sound Classification With Features Optimization [35.2832738406242]
一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。
提案手法は,精度,リコール,精度を25%以上向上させる。
論文 参考訳(メタデータ) (2024-07-03T18:33:47Z) - BirdSet: A Large-Scale Dataset for Audio Classification in Avian Bioacoustics [2.2399415927517414]
textttBirdSetは、鳥のバイオ音響に焦点を当てたオーディオ分類のための大規模なベンチマークデータセットである。
textttBirdSetは、トレーニング用に1万近いクラス($uparrow!18times$)から6800以上の録音時間($uparrow!17%$)、強くラベル付けされた8つの評価データセットで400時間以上($uparrow!7times$)でAudioSetを上回っている。
論文 参考訳(メタデータ) (2024-03-15T15:10:40Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Active Bird2Vec: Towards End-to-End Bird Sound Monitoring with
Transformers [2.404305970432934]
自己教師付き(SSL)と深層能動学習(DAL)を組み合わせた鳥音モニタリングにおけるエンドツーエンド学習へのシフトを提案する。
我々は,従来のスペクトログラム変換をバイパスし,直接生音声処理を実現することを目的としている。
論文 参考訳(メタデータ) (2023-08-14T13:06:10Z) - ZooD: Exploiting Model Zoo for Out-of-Distribution Generalization [65.58562481279023]
PTMのランク付けと特徴選択によるアンサンブルのためのパラダイムであるZooDを提案する。
我々は,多様なアウト・オブ・ディストリビューション(OoD)タスクのための35のモデルからなる多様なモデル動物園において,我々のパラダイムを評価する。
論文 参考訳(メタデータ) (2022-10-17T16:31:57Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。