論文の概要: What Matters for Bioacoustic Encoding
- arxiv url: http://arxiv.org/abs/2508.11845v2
- Date: Tue, 19 Aug 2025 12:07:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 13:30:22.878976
- Title: What Matters for Bioacoustic Encoding
- Title(参考訳): バイオアコースティックエンコーディングの意義
- Authors: Marius Miron, David Robinson, Milad Alizadeh, Ellen Gilsenan-McMahon, Gagan Narula, Emmanuel Chemla, Maddie Cusimano, Felix Effenberger, Masato Hagiwara, Benjamin Hoffman, Sara Keen, Diane Kim, Jane Lawton, Jen-Yu Liu, Aza Raskin, Olivier Pietquin, Matthieu Geist,
- Abstract要約: 本研究は,生物音響学の側面を包括する大規模実証研究である。
既存のベンチマークと提案ベンチマークで最先端のエンコーダを得る。
具体的には、種分類、検出、個人ID、発声レパートリー発見などのタスクを含む26のデータセットにまたがって、自己教師付き事前訓練に続いて、教師付き後訓練を行う。
- 参考スコア(独自算出の注目度): 34.118070876417065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Bioacoustics, the study of sounds produced by living organisms, plays a vital role in conservation, biodiversity monitoring, and behavioral studies. Many tasks in this field, such as species, individual, and behavior classification and detection, are well-suited to machine learning. However, they often suffer from limited annotated data, highlighting the need for a general-purpose bioacoustic encoder capable of extracting useful representations for diverse downstream tasks. Such encoders have been proposed before, but are often limited in scope due to a focus on a narrow range of species (typically birds), and a reliance on a single model architecture or training paradigm. Moreover, they are usually evaluated on a small set of tasks and datasets. In this work, we present a large-scale empirical study that covers aspects of bioacoustics that are relevant to research but have previously been scarcely considered: training data diversity and scale, model architectures and training recipes, and the breadth of evaluation tasks and datasets. We obtain encoders that are state-of-the-art on the existing and proposed benchmarks. We also identify what matters for training these encoders, such that this work can be extended when more data are available or better architectures are proposed. Specifically, across 26 datasets with tasks including species classification, detection, individual ID, and vocal repertoire discovery, we find self-supervised pre-training followed by supervised post-training on a mixed bioacoustics + general-audio corpus yields the strongest in- and out-of-distribution performance. We show the importance of data diversity in both stages. To support ongoing research and application, we will release the model checkpoints.
- Abstract(参考訳): 生物音響学は、生物が生み出す音の研究であり、生物多様性のモニタリング、行動研究において重要な役割を担っている。
この分野の多くのタスク、例えば種、個人、行動分類と検出は機械学習に適している。
しかし、それらは限られたアノテートデータに悩まされ、様々な下流タスクに有用な表現を抽出できる汎用バイオ音響エンコーダの必要性を強調している。
このようなエンコーダはこれまで提案されてきたが、狭い範囲の種(典型的には鳥類)に焦点が当てられ、単一のモデルアーキテクチャや訓練パラダイムに依存しているため、スコープに制限されることが多い。
さらに、それらは通常、小さなタスクとデータセットのセットで評価されます。
本研究は,生物音響学を対象とする大規模研究であり,これまではデータ多様性とスケールのトレーニング,モデルアーキテクチャとトレーニングレシピ,評価タスクとデータセットの広範さについて検討してきた。
既存のベンチマークと提案ベンチマークで最先端のエンコーダを得る。
また、これらのエンコーダをトレーニングする上での重要事項を特定し、より多くのデータが利用可能になったり、より優れたアーキテクチャが提案された時にこの作業を拡張できるようにします。
具体的には, 種分類, 検出, 個人ID, 発声レパートリー発見などのタスクを含む26のデータセットにおいて, 自己指導による事前学習と, 混合生体音響学+一般音響コーパスによる指導後訓練により, 最強のイン・オブ・アウト・ディストリビューション性能が得られる。
両段階におけるデータの多様性の重要性を示す。
進行中の研究とアプリケーションをサポートするため、私たちはモデルチェックポイントをリリースします。
関連論文リスト
- The iNaturalist Sounds Dataset [60.157076990024606]
iNatSoundsは、5500種以上の音をキャプチャする23万のオーディオファイルのコレクションで、世界中で27,000人以上のレコーダーが貢献している。
このデータセットは、鳥類、哺乳類、昆虫、虫類、両生類からの音を包含し、iNaturalistに提出された観察から得られたオーディオおよび種名を含む。
我々は、次世代の公的なエンゲージメントアプリケーションを支えるこのデータに基づいて訓練されたモデルを構想し、大規模なオーディオコレクションの処理において生物学者、生態学者、土地利用管理者を支援する。
論文 参考訳(メタデータ) (2025-05-31T02:07:37Z) - Learning from Neighbors: Category Extrapolation for Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - Self-supervised Learning for Acoustic Few-Shot Classification [10.180992026994739]
我々は、CNNに基づく前処理と状態空間モデル(SSM)に基づく特徴抽出を組み合わせた新しいアーキテクチャを導入、評価する。
実際のタスクデータに対するコントラスト学習と,それに続くラベル付きデータによる微調整を用いて,このアーキテクチャを事前学習する。
本評価は, 数発の分類問題において, 最先端のアーキテクチャよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-15T07:45:11Z) - A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect
Dataset [18.211840156134784]
本稿では,画像に基づく分類学的評価が可能なコンピュータビジョンモデルの訓練を目的とした,100万画像データセットを提案する。
このデータセットは魅力的な特徴も示しており、その研究はより広範な機械学習コミュニティにとって興味深いものとなるだろう。
論文 参考訳(メタデータ) (2023-07-19T20:54:08Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Parsing Birdsong with Deep Audio Embeddings [0.5599792629509227]
特徴呼と環境騒音を半教師付きで同定する手法を提案する。
我々は、畳み込みオートエンコーダと2つの事前学習ネットワークを含む、音声サンプルの潜在表現を学習するために、いくつかの手法を利用する。
論文 参考訳(メタデータ) (2021-08-20T14:45:44Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。