論文の概要: Leveraging tropical reef, bird and unrelated sounds for superior transfer learning in marine bioacoustics
- arxiv url: http://arxiv.org/abs/2404.16436v1
- Date: Thu, 25 Apr 2024 09:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:19:10.441051
- Title: Leveraging tropical reef, bird and unrelated sounds for superior transfer learning in marine bioacoustics
- Title(参考訳): 海洋生物音響学における越流学習のための熱帯礁・鳥・無関係音の活用
- Authors: Ben Williams, Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, Eleni Triantafillou, Abram B. Fleishman, Matthew McKown, Jill E. Munger, Aaron N. Rice, Ashlee Lillis, Clemency E. White, Catherine A. D. Hobbs, Tries B. Razak, Kate E. Jones, Tom Denton,
- Abstract要約: 機械学習は、環境評価のためのパッシブ音響モニタリング(PAM)に革命をもたらす可能性がある。
一般化可能な事前学習ネットワークはこれらのコストを克服することができるが、高品質な事前学習には膨大な注釈付きライブラリが必要である。
ここではサンゴ礁生物音響学を用いてデータ不足領域に対する最適事前学習戦略を同定する。
- 参考スコア(独自算出の注目度): 5.799126142155481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning has the potential to revolutionize passive acoustic monitoring (PAM) for ecological assessments. However, high annotation and compute costs limit the field's efficacy. Generalizable pretrained networks can overcome these costs, but high-quality pretraining requires vast annotated libraries, limiting its current applicability primarily to bird taxa. Here, we identify the optimum pretraining strategy for a data-deficient domain using coral reef bioacoustics. We assemble ReefSet, a large annotated library of reef sounds, though modest compared to bird libraries at 2% of the sample count. Through testing few-shot transfer learning performance, we observe that pretraining on bird audio provides notably superior generalizability compared to pretraining on ReefSet or unrelated audio alone. However, our key findings show that cross-domain mixing which leverages bird, reef and unrelated audio during pretraining maximizes reef generalizability. SurfPerch, our pretrained network, provides a strong foundation for automated analysis of marine PAM data with minimal annotation and compute costs.
- Abstract(参考訳): 機械学習は、環境評価のためのパッシブ音響モニタリング(PAM)に革命をもたらす可能性がある。
しかし、高いアノテーションと計算コストは、フィールドの有効性を制限する。
一般化可能な事前訓練ネットワークはこれらのコストを克服することができるが、高品質な事前訓練には膨大な注釈付きライブラリが必要である。
ここではサンゴ礁生物音響学を用いてデータ不足領域に対する最適事前学習戦略を同定する。
ReefSetは大きなアノテートされたサンゴ礁音のライブラリである。
数発の転送学習性能をテストすることにより,鳥の音声による事前学習は,ReefSetや無関係の音声による事前学習に比べ,顕著に優れた一般化性が得られることがわかった。
しかし,本研究の鍵となる知見は,鳥類,サンゴ礁,無関係なオーディオを利用したクロスドメイン混合が,サンゴ礁の汎用性を最大化することである。
事前訓練されたネットワークであるSurfPerchは、最小限のアノテーションと計算コストで海洋PAMデータを自動解析するための強力な基盤を提供する。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Self-Supervised Learning for Few-Shot Bird Sound Classification [10.395255631261458]
音声における自己教師あり学習(SSL)は、様々な領域において大きな可能性を秘めている。
本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。
論文 参考訳(メタデータ) (2023-12-25T22:33:45Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [51.42020333199243]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - Efficient acoustic feature transformation in mismatched environments
using a Guided-GAN [1.495380389108477]
本稿では,資源共有環境における音声認識システムを改善するための新しいフレームワークを提案する。
音響入力機能を利用したGAN(Generative Adversarial Network)を用いて、ミスマッチしたデータの特徴を高める。
1時間未満のデータで、高品質なデータに基づいて訓練され、一致しないオーディオで評価されたASRシステムは、11.5%から19.7%の相対的な単語誤り率(WER)によって改善される。
論文 参考訳(メタデータ) (2022-10-03T05:33:28Z) - Classification of animal sounds in a hyperdiverse rainforest using
Convolutional Neural Networks [0.0]
受動的に記録された音場から機械学習アプローチによる自動種検出は有望な手法である。
本研究では,ボルネオの熱帯林の音環境と,移動学習による畳み込みニューラルネットワークモデル(CNN)を用いた。
以上の結果から,トランスファー学習とデータ拡張は,多くの稀な種を持つ小さなサウンドスケーププロジェクトにおいても,CNNを用いて声の分類が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-29T21:34:57Z) - Recognizing bird species in diverse soundscapes under weak supervision [0.2148535041822524]
複雑で多様なサウンドスケープにおける鳥の発声に対するロバストな分類手法を提案し,BirdCLEF 2021チャレンジにおいて第2位を獲得した。
本稿では,新しい拡張法で補足された効率的なモデリングとトレーニングルーチンを用いることで,事前学習した畳み込みニューラルネットワークをフル活用する方法を説明する。
論文 参考訳(メタデータ) (2021-07-16T06:54:38Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。