論文の概要: Can Masked Autoencoders Also Listen to Birds?
- arxiv url: http://arxiv.org/abs/2504.12880v1
- Date: Thu, 17 Apr 2025 12:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:35:03.718419
- Title: Can Masked Autoencoders Also Listen to Birds?
- Title(参考訳): オートエンコーダーは鳥の音も聴けるのか?
- Authors: Lukas Rauch, Ilyass Moummad, René Heinrich, Alexis Joly, Bernhard Sick, Christoph Scholz,
- Abstract要約: AudioSetで事前訓練されたmasked Autoencoders (MAEs)は、特殊なドメインのきめ細かい音響特性を捉えることができない。
本研究では,大規模なBirdSetデータセットに基づいて事前訓練したドメイン特化MAEであるBird-MAEを紹介する。
- 参考スコア(独自算出の注目度): 2.430300340530418
- License:
- Abstract: Masked Autoencoders (MAEs) pretrained on AudioSet fail to capture the fine-grained acoustic characteristics of specialized domains such as bioacoustic monitoring. Bird sound classification is critical for assessing environmental health, yet general-purpose models inadequately address its unique acoustic challenges. To address this, we introduce Bird-MAE, a domain-specialized MAE pretrained on the large-scale BirdSet dataset. We explore adjustments to pretraining, fine-tuning and utilizing frozen representations. Bird-MAE achieves state-of-the-art results across all BirdSet downstream tasks, substantially improving multi-label classification performance compared to the general-purpose Audio-MAE baseline. Additionally, we propose prototypical probing, a parameter-efficient method for leveraging MAEs' frozen representations. Bird-MAE's prototypical probes outperform linear probing by up to 37\% in MAP and narrow the gap to fine-tuning to approximately 3\% on average on BirdSet.
- Abstract(参考訳): AudioSetで事前訓練されたmasked Autoencoders (MAEs)は、バイオ音響モニタリングのような特殊なドメインのきめ細かい音響特性を捉えることができない。
鳥の音の分類は環境の健全性を評価するために重要であるが、汎用モデルは、その固有の音響的課題に不十分に対処する。
そこで本稿では,大規模なBirdSetデータセット上で事前訓練されたドメイン特化MAEであるBird-MAEを紹介する。
凍結表現の事前学習、微調整、活用のための調整について検討する。
Bird-MAEは、すべてのBirdSetダウンストリームタスクの最先端結果を実現し、汎用Audio-MAEベースラインと比較して、マルチラベル分類性能を大幅に向上させる。
さらに,MAEの凍結表現を利用したパラメータ効率のよいプロトタイプ探索法を提案する。
Bird-MAE の原型プローブは、MAP において最大37 % の線形プローブを上回り、そのギャップを、BirdSet で平均 3 % まで狭めている。
関連論文リスト
- NBM: an Open Dataset for the Acoustic Monitoring of Nocturnal Migratory Birds in Europe [0.0]
この研究は、西太平洋の117種から13,359種の注釈付き発声を収集した夜行性鳥類移動データセットを提示する。
このデータセットには正確な時間と頻度のアノテーションが含まれており、フランス全土の何十人もの鳥愛好家によって集められている。
特に,音声データの処理に適した2段階の深層物体検出モデルを訓練することにより,本データベースの有用性を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:55:45Z) - Advanced Framework for Animal Sound Classification With Features Optimization [35.2832738406242]
一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。
提案手法は,精度,リコール,精度を25%以上向上させる。
論文 参考訳(メタデータ) (2024-07-03T18:33:47Z) - Leveraging tropical reef, bird and unrelated sounds for superior transfer learning in marine bioacoustics [5.799126142155481]
機械学習は、環境評価のためのパッシブ音響モニタリング(PAM)に革命をもたらす可能性がある。
一般化可能な事前学習ネットワークはこれらのコストを克服することができるが、高品質な事前学習には膨大な注釈付きライブラリが必要である。
ここではサンゴ礁生物音響学を用いてデータ不足領域に対する最適事前学習戦略を同定する。
論文 参考訳(メタデータ) (2024-04-25T09:12:35Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Active Bird2Vec: Towards End-to-End Bird Sound Monitoring with
Transformers [2.404305970432934]
自己教師付き(SSL)と深層能動学習(DAL)を組み合わせた鳥音モニタリングにおけるエンドツーエンド学習へのシフトを提案する。
我々は,従来のスペクトログラム変換をバイパスし,直接生音声処理を実現することを目的としている。
論文 参考訳(メタデータ) (2023-08-14T13:06:10Z) - Unsupervised classification to improve the quality of a bird song
recording dataset [0.0]
本稿では,時間周波数音声単位のセグメンテーション,各音単位の特徴計算,各音単位を鳥の歌や雑音として分類する3つのステップからなる,データ中心の新規ラベリング機能を提案する。
ラベル付け機能は,データセットに存在する初期ラベルノイズを最大3倍に低減することができた。
論文 参考訳(メタデータ) (2023-02-15T10:01:58Z) - ZooD: Exploiting Model Zoo for Out-of-Distribution Generalization [65.58562481279023]
PTMのランク付けと特徴選択によるアンサンブルのためのパラダイムであるZooDを提案する。
我々は,多様なアウト・オブ・ディストリビューション(OoD)タスクのための35のモデルからなる多様なモデル動物園において,我々のパラダイムを評価する。
論文 参考訳(メタデータ) (2022-10-17T16:31:57Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。