論文の概要: Masked Autoencoders with Limited Data: Does It Work? A Fine-Grained Bioacoustics Case Study
- arxiv url: http://arxiv.org/abs/2605.14031v1
- Date: Wed, 13 May 2026 18:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.461859
- Title: Masked Autoencoders with Limited Data: Does It Work? A Fine-Grained Bioacoustics Case Study
- Title(参考訳): 限られたデータを持つマスケードオートエンコーダは機能するか? : 微粒化バイオアコースティックスを用いたケーススタディ
- Authors: Wuao Liu, Mustafa Chasmai, Subhransu Maji, Grant Van Horn,
- Abstract要約: Masked Autoencoders (MAE) は大規模な音声コーパスに強い伝達性を示す。
iNatSoundsの種分類におけるMAE事前学習の系統的研究を行った。
以上の結果から,中程度に微粒な生体音響条件下では,事前学習の規模が主観的な設計を担っていることが示唆された。
- 参考スコア(独自算出の注目度): 20.469464200788583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bioacoustic recognition requires fine-grained acoustic understanding to distinguish similar-sounding species. However, many large-scale data repositories such as iNaturalist are weakly annotated, often with only a single positive species label per recording, making supervised learning particularly challenging. Inspired by advances in computer vision, recent approaches have shifted toward self-supervised learning to capture the underlying structure of audio without relying on exhaustive annotations. In particular, masked autoencoders (MAE) have shown strong transferability on massive audio corpora, yet their effectiveness in more modest bioacoustic settings remains underexplored. In this work, we conduct a systematic study of MAE pretraining for species classification on iNatSounds, analyzing the impacts of pretraining data scale, domain specificity, data curation, and transfer strategies. Consistent with prior work, we find that models pretrained on diverse general audio data achieve the best transfer performance on iNatSounds. Contrary to observations from large-scale audio benchmarks, we find that (1) additional masked reconstruction pretraining on domain-specific data provides limited benefits and may even degrade performance relative to off-the-shelf models, and (2) selective data filtering offers a negligible advantage when the overall data scale is limited. Our results indicate that, in moderate-sized fine-grained bioacoustic settings, pretraining scale dominates objective design. These findings further clarify when MAE-based pretraining is effective and provide practical guidance for model selection under limited supervision.
- Abstract(参考訳): 生体音響認識は、類似音種を識別するために、きめ細かい音響的理解を必要とする。
しかし、iNaturalistのような大規模なデータレポジトリの多くは、記録ごとに1つの正の種ラベルしか持たず、弱く注釈付けされているため、教師付き学習は特に困難である。
コンピュータビジョンの進歩に触発されて、近年のアプローチは、徹底的なアノテーションに頼ることなく、音声の基盤構造を捉えるための自己教師型学習へと移行してきた。
特に、マスク付きオートエンコーダ(MAE)は、大規模なオーディオコーパスに強い伝達性を示すが、より控えめなバイオ音響設定におけるそれらの効果はいまだ探索されていない。
本研究では,iNatSoundsの種分類におけるMAE事前学習の体系的研究を行い,事前学習データスケール,ドメイン特異性,データキュレーション,転送戦略の影響を分析した。
先行研究と一致して,iNatSounds上では,多種多様な一般音声データに事前訓練されたモデルが最も優れた転送性能が得られることがわかった。
大規模オーディオベンチマークの観察とは対照的に,(1)ドメイン固有データに対するマスク付き再構成による事前学習は,限定的なメリットがあり,市販モデルと比較して性能が低下する可能性があり,(2)データ規模が制限された場合,選択的なデータフィルタリングは無視できる優位性がある。
以上の結果から,中程度に微粒な生体音響条件下では,事前学習の規模が主観的な設計を担っていることが示唆された。
これらの知見は,MAEによる事前訓練が有効であるかどうかをさらに明らかにし,限られた監督下でのモデル選択の実践的ガイダンスを提供する。
関連論文リスト
- How Class Ontology and Data Scale Affect Audio Transfer Learning [86.30979869026778]
トランスファーラーニングは、機械学習において重要な概念であり、人工知能ニューラルネットワークが大規模な事前学習データベースから恩恵を受けることができる。
本稿では,AudioSetのサブセット上で,様々なモデル状態の事前学習を行うオーディオ・オーディオ・トランスファー学習について検討する。
事前学習データにおけるサンプル数やクラス数の増加は、転送学習に肯定的な影響を及ぼすと報告した。
論文 参考訳(メタデータ) (2026-03-26T14:18:29Z) - Decodable but not structured: linear probing enables Underwater Acoustic Target Recognition with pretrained audio embeddings [1.25052154879199]
船舶の人為的騒音は水中の音汚染に大きく寄与し、海洋生態系にリスクをもたらす。
パッシブ・アコースティック・モニタリング(PAM)システムはこの目的のために広く展開されており、様々な音環境にまたがる水中記録を何年にもわたって生成している。
水中音響目標自動認識(UATR)の最近の進歩は、ラベル付きデータの不足によって制約される教師あり学習に大きく依存している。
本研究では、UATRにおける転送学習の実証的研究を行い、多様なオーディオ領域から派生した複数の事前学習オーディオモデルを評価する。
論文 参考訳(メタデータ) (2026-01-13T09:15:31Z) - What Matters for Bioacoustic Encoding [34.118070876417065]
本研究は,生物音響学の側面を包括する大規模実証研究である。
既存のベンチマークと提案ベンチマークで最先端のエンコーダを得る。
具体的には、種分類、検出、個人ID、発声レパートリー発見などのタスクを含む26のデータセットにまたがって、自己教師付き事前訓練に続いて、教師付き後訓練を行う。
論文 参考訳(メタデータ) (2025-08-15T23:52:34Z) - Self-supervised Learning for Acoustic Few-Shot Classification [10.180992026994739]
我々は、CNNに基づく前処理と状態空間モデル(SSM)に基づく特徴抽出を組み合わせた新しいアーキテクチャを導入、評価する。
実際のタスクデータに対するコントラスト学習と,それに続くラベル付きデータによる微調整を用いて,このアーキテクチャを事前学習する。
本評価は, 数発の分類問題において, 最先端のアーキテクチャよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-15T07:45:11Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。