論文の概要: Foundation Models for Bioacoustics -- a Comparative Review
- arxiv url: http://arxiv.org/abs/2508.01277v1
- Date: Sat, 02 Aug 2025 09:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.801989
- Title: Foundation Models for Bioacoustics -- a Comparative Review
- Title(参考訳): バイオ音響学の基礎モデル-比較検討
- Authors: Raphael Schwinger, Paria Vali Zadeh, Lukas Rauch, Mats Kurz, Tom Hauschild, Sam Lapp, Sven Tomforde,
- Abstract要約: 本稿では, 生体音響基礎モデルについて, モデルアーキテクチャ, 事前学習計画, 訓練パラダイムなどの設計決定を徹底的に分析して検討する。
BEANSおよびBirdSetベンチマークから,分類タスクの選択基盤モデルを評価する。
総合的な実験分析の結果,BirdSetベンチマークでは,大規模鳥の鳴き声データに基づく自己指導による学習が最高の成績を収めていることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.9109149174920012
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated bioacoustic analysis is essential for biodiversity monitoring and conservation, requiring advanced deep learning models that can adapt to diverse bioacoustic tasks. This article presents a comprehensive review of large-scale pretrained bioacoustic foundation models and systematically investigates their transferability across multiple bioacoustic classification tasks. We overview bioacoustic representation learning including major pretraining data sources and benchmarks. On this basis, we review bioacoustic foundation models by thoroughly analysing design decisions such as model architecture, pretraining scheme, and training paradigm. Additionally, we evaluate selected foundation models on classification tasks from the BEANS and BirdSet benchmarks, comparing the generalisability of learned representations under both linear and attentive probing strategies. Our comprehensive experimental analysis reveals that BirdMAE, trained on large-scale bird song data with a self-supervised objective, achieves the best performance on the BirdSet benchmark. On BEANS, BEATs$_{NLM}$, the extracted encoder of the NatureLM-audio large audio model, is slightly better. Both transformer-based models require attentive probing to extract the full performance of their representations. ConvNext$_{BS}$ and Perch models trained with supervision on large-scale bird song data remain competitive for passive acoustic monitoring classification tasks of BirdSet in linear probing settings. Training a new linear classifier has clear advantages over evaluating these models without further training. While on BEANS, the baseline model BEATs trained with self-supervision on AudioSet outperforms bird-specific models when evaluated with attentive probing. These findings provide valuable guidance for practitioners selecting appropriate models to adapt them to new bioacoustic classification tasks via probing.
- Abstract(参考訳): 生体音響分析の自動化は生物多様性の監視と保存に不可欠であり、多様な生体音響タスクに適応できる高度な深層学習モデルが必要である。
本稿では, 大規模生体音響基礎モデルの総合的なレビューを行い, 複数の生体音響分類タスク間での伝達可能性について系統的に検討する。
本稿では,生物音響表現学習について概説する。
そこで本研究では, モデルアーキテクチャ, 事前学習計画, 訓練パラダイムなどの設計決定を徹底的に分析し, バイオ音響基礎モデルについて検討する。
さらに、BEANSおよびBirdSetベンチマークから選択された分類タスクの基盤モデルを評価し、線形および注意的探索戦略の両方の下での学習表現の一般化性を比較した。
総合的な実験分析の結果,BirdSetベンチマークでは,大規模鳥の鳴き声データに基づく自己指導による学習が最高の成績を収めていることが明らかとなった。
BEANSでは、NatureLM-audio大オーディオモデルの抽出エンコーダであるBEATs$_{NLM}$が若干改善されている。
どちらのトランスベースモデルも、それぞれの表現の完全なパフォーマンスを抽出するために注意深い探索を必要とする。
ConvNext$_{BS}$およびPerchモデルは、線形探索設定におけるBirdSetの受動的音響モニタリング分類タスクと競合する。
新しい線形分類器の訓練は、これらのモデルを更なる訓練なしで評価するよりも明らかな利点がある。
BEANS上では、AudioSetの自己監督で訓練されたBEATが、注意探索で評価された場合、鳥特有のモデルより優れている。
これらの知見は, 生物音響分類タスクに適合する適切なモデルを選択する実践者に対して, 探索を通じて有効なガイダンスを提供するものである。
関連論文リスト
- Can Masked Autoencoders Also Listen to Birds? [2.430300340530418]
Masked Autoencoders (MAEs) は、リッチな意味表現を学習することで、音声分類において競合する結果を示した。
汎用モデルは、きめ細かいオーディオドメインに直接適用しても、うまく一般化できない。
この研究は、このドメインギャップを埋めるには、ドメイン固有の事前トレーニングデータ以上のものが必要であることを実証している。
論文 参考訳(メタデータ) (2025-04-17T12:13:25Z) - Comparing Self-Supervised Learning Models Pre-Trained on Human Speech and Animal Vocalizations for Bioacoustics Processing [19.205671029694074]
自己教師付き学習(SSL)基盤モデルは、強力でドメインに依存しない汎用的特徴抽出器として登場した。
本稿では,動物発声に直接事前学習したSSLモデルが,事前学習した音声に対して有意な優位性をもたらすかどうかを考察する。
論文 参考訳(メタデータ) (2025-01-10T14:18:21Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - AudioProtoPNet: An interpretable deep learning model for bird sound classification [1.49199020343864]
本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。
これは本質的に解釈可能なモデルであり、埋め込みを抽出するためにConvNeXtのバックボーンを使用する。
このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
論文 参考訳(メタデータ) (2024-04-16T09:37:41Z) - BirdSet: A Large-Scale Dataset for Audio Classification in Avian Bioacoustics [2.2399415927517414]
BirdSetは、鳥のバイオ音響に焦点を当てたオーディオ分類のための大規模なベンチマークデータセットである。
我々は,3つの異なる学習シナリオにまたがる多ラベル分類において,よく知られた6つのDLモデルをベンチマークした。
私たちはHugging Faceにデータセットをホストし、簡単にアクセスできるようにしています。
論文 参考訳(メタデータ) (2024-03-15T15:10:40Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Tuning In: Analysis of Audio Classifier Performance in Clinical Settings with Limited Data [3.0113849517062303]
本研究では,小データセットの制約を考慮した臨床環境下での音声分類のためのディープラーニングモデルの評価を行う。
我々は、DenseNetやConvNeXtを含むCNNを、ViT、SWIN、ASTといったトランスフォーマーモデルとともに分析する。
本手法は,特定の臨床データを微調整する前に,大規模データセットで事前トレーニングを行うことの利点を強調した。
論文 参考訳(メタデータ) (2024-02-07T16:41:11Z) - Auto deep learning for bioacoustic signals [2.833479881983341]
本研究では,鳥の発声の多クラス分類の精度と効率を高めるために,自動深層学習の可能性について検討した。
西地中海のWetland Birdsデータセットを用いて、自動機械学習フレームワークであるAutoKerasについて検討した。
論文 参考訳(メタデータ) (2023-11-08T07:22:39Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Overcoming Classifier Imbalance for Long-tail Object Detection with
Balanced Group Softmax [88.11979569564427]
本報告では, 長期分布前における最先端モデルの過小評価に関する最初の体系的解析を行う。
本稿では,グループワイドトレーニングを通じて検出フレームワーク内の分類器のバランスをとるための,新しいバランス付きグループソフトマックス(BAGS)モジュールを提案する。
非常に最近の長尾大語彙オブジェクト認識ベンチマークLVISの大規模な実験により,提案したBAGSは検出器の性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-06-18T10:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。