論文の概要: Generalization in birdsong classification: impact of transfer learning methods and dataset characteristics
- arxiv url: http://arxiv.org/abs/2409.15383v1
- Date: Sat, 21 Sep 2024 11:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 13:20:55.010637
- Title: Generalization in birdsong classification: impact of transfer learning methods and dataset characteristics
- Title(参考訳): 鳥の分類における一般化:移動学習法とデータセット特性の影響
- Authors: Burooj Ghani, Vincent J. Kalkman, Bob Planqué, Willem-Pier Vellinga, Lisa Gill, Dan Stowell,
- Abstract要約: 大規模な鳥音分類における伝達学習の有効性について検討する。
実験により, 微調整蒸留と知識蒸留の双方で高い性能が得られた。
動物音コミュニティにおけるより包括的なラベリングの実践を提唱する。
- 参考スコア(独自算出の注目度): 2.6740633963478095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Animal sounds can be recognised automatically by machine learning, and this has an important role to play in biodiversity monitoring. Yet despite increasingly impressive capabilities, bioacoustic species classifiers still exhibit imbalanced performance across species and habitats, especially in complex soundscapes. In this study, we explore the effectiveness of transfer learning in large-scale bird sound classification across various conditions, including single- and multi-label scenarios, and across different model architectures such as CNNs and Transformers. Our experiments demonstrate that both fine-tuning and knowledge distillation yield strong performance, with cross-distillation proving particularly effective in improving in-domain performance on Xeno-canto data. However, when generalizing to soundscapes, shallow fine-tuning exhibits superior performance compared to knowledge distillation, highlighting its robustness and constrained nature. Our study further investigates how to use multi-species labels, in cases where these are present but incomplete. We advocate for more comprehensive labeling practices within the animal sound community, including annotating background species and providing temporal details, to enhance the training of robust bird sound classifiers. These findings provide insights into the optimal reuse of pretrained models for advancing automatic bioacoustic recognition.
- Abstract(参考訳): 動物の音は機械学習によって自動的に認識され、生物多様性監視において重要な役割を果たす。
しかし、生物音響学の種分類器は、ますます印象的な能力を持っているにもかかわらず、種や生息地、特に複雑な音環境において、相変わらず不均衡な性能を示す。
本研究では,CNN や Transformer など,大規模鳥音分類における伝達学習の有効性について検討した。
実験の結果, 微調整と知識蒸留はともに高い性能を示し, クロス蒸留はゼノカントデータのドメイン内性能向上に特に有効であることがわかった。
しかし,音環境への一般化においては,知識蒸留に比べて浅部微調整は優れた性能を示し,その頑丈さと制約された性質を強調している。
本研究は,複数種のラベルの活用方法についても検討する。
動物音コミュニティにおけるより包括的なラベリングの実践を提唱し、背景種を注釈し、時間的詳細を提供するとともに、頑健な鳥音分類器の訓練を強化することを提唱する。
これらの知見は, 生体音響認識の高度化に向けた事前学習モデルの最適再利用に関する知見を与えるものである。
関連論文リスト
- Advanced Framework for Animal Sound Classification With Features Optimization [35.2832738406242]
一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。
提案手法は,精度,リコール,精度を25%以上向上させる。
論文 参考訳(メタデータ) (2024-07-03T18:33:47Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - Self-Supervised Learning for Few-Shot Bird Sound Classification [10.395255631261458]
音声における自己教師あり学習(SSL)は、様々な領域において大きな可能性を秘めている。
本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。
論文 参考訳(メタデータ) (2023-12-25T22:33:45Z) - A Saliency-based Clustering Framework for Identifying Aberrant
Predictions [49.1574468325115]
本稿では, 異常予測の概念を導入し, 分類誤差の性質が頻度と同じくらい重要であることを強調した。
本稿では,誤分類率の低減と異常予測の識別を両立する,新しい,効率的なトレーニング手法を提案する。
本手法を獣医学の分野である獣医学の分野に応用し, 被曝率は高いが, 人体医学に比べて広く研究されていない。
論文 参考訳(メタデータ) (2023-11-11T01:53:59Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Long-tail Recognition via Compositional Knowledge Transfer [60.03764547406601]
末尾クラスの少数ショット問題に対処する長尾認識のための新しい戦略を導入する。
我々の目標は、情報に富んだ共通クラスから得られた知識を、意味的に類似しているがデータに富む稀なクラスに伝達することである。
実験結果から,本手法は稀なクラスにおいて,堅牢な共通クラス性能を維持しつつ,大幅な性能向上を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-12-13T15:48:59Z) - Parsing Birdsong with Deep Audio Embeddings [0.5599792629509227]
特徴呼と環境騒音を半教師付きで同定する手法を提案する。
我々は、畳み込みオートエンコーダと2つの事前学習ネットワークを含む、音声サンプルの潜在表現を学習するために、いくつかの手法を利用する。
論文 参考訳(メタデータ) (2021-08-20T14:45:44Z) - Recognizing bird species in diverse soundscapes under weak supervision [0.2148535041822524]
複雑で多様なサウンドスケープにおける鳥の発声に対するロバストな分類手法を提案し,BirdCLEF 2021チャレンジにおいて第2位を獲得した。
本稿では,新しい拡張法で補足された効率的なモデリングとトレーニングルーチンを用いることで,事前学習した畳み込みニューラルネットワークをフル活用する方法を説明する。
論文 参考訳(メタデータ) (2021-07-16T06:54:38Z) - Class-Balanced Distillation for Long-Tailed Visual Recognition [100.10293372607222]
実世界のイメージはしばしばクラスごとの画像数の著しい不均衡によって特徴づけられ、ロングテール分布に繋がる。
本研究では、インスタンスサンプリングで学習した特徴表現が長尾設定では最適とは程遠いという重要な観察を行うことで、新しいフレームワークを提案する。
我々の主な貢献は、知識蒸留を利用して特徴表現を強化する新しい訓練方法である。
論文 参考訳(メタデータ) (2021-04-12T08:21:03Z) - Modelling Animal Biodiversity Using Acoustic Monitoring and Deep
Learning [0.0]
本稿では,機械学習の最先端技術を用いて,時系列音声信号から特徴を自動的に抽出する手法について概説する。
得られた鳥の歌はメル周波数ケプストラム(MFC)を用いて処理され、後に多層パーセプトロン(MLP)を用いて分類される特徴を抽出する。
提案手法は感度0.74,特異度0.92,精度0.74で有望な結果を得た。
論文 参考訳(メタデータ) (2021-03-12T13:50:31Z) - Transferring Dense Pose to Proximal Animal Classes [83.84439508978126]
より一般的な対象検出器やセグメンタなどと同様に、密集したポーズ認識に存在する知識を、他のクラスにおける密集したポーズ認識の問題に移すことが可能であることを示す。
我々は、人間と幾何学的に整合した新しい動物のためのDensePoseモデルを確立することでこれを行う。
また、クラスチンパンジーにDensePoseの方法でラベル付けされた2つのベンチマークデータセットを導入し、アプローチを評価するためにそれらを使用します。
論文 参考訳(メタデータ) (2020-02-28T21:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。