論文の概要: AudioProtoPNet: An interpretable deep learning model for bird sound classification
- arxiv url: http://arxiv.org/abs/2404.10420v3
- Date: Wed, 13 Nov 2024 16:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:08:34.619902
- Title: AudioProtoPNet: An interpretable deep learning model for bird sound classification
- Title(参考訳): AudioProtoPNet:鳥音分類のための解釈可能なディープラーニングモデル
- Authors: René Heinrich, Lukas Rauch, Bernhard Sick, Christoph Scholz,
- Abstract要約: 本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。
これは本質的に解釈可能なモデルであり、埋め込みを抽出するためにConvNeXtのバックボーンを使用する。
このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
- 参考スコア(独自算出の注目度): 1.49199020343864
- License:
- Abstract: Deep learning models have significantly advanced acoustic bird monitoring by being able to recognize numerous bird species based on their vocalizations. However, traditional deep learning models are black boxes that provide no insight into their underlying computations, limiting their usefulness to ornithologists and machine learning engineers. Explainable models could facilitate debugging, knowledge discovery, trust, and interdisciplinary collaboration. This study introduces AudioProtoPNet, an adaptation of the Prototypical Part Network (ProtoPNet) for multi-label bird sound classification. It is an inherently interpretable model that uses a ConvNeXt backbone to extract embeddings, with the classification layer replaced by a prototype learning classifier trained on these embeddings. The classifier learns prototypical patterns of each bird species' vocalizations from spectrograms of training instances. During inference, audio recordings are classified by comparing them to the learned prototypes in the embedding space, providing explanations for the model's decisions and insights into the most informative embeddings of each bird species. The model was trained on the BirdSet training dataset, which consists of 9,734 bird species and over 6,800 hours of recordings. Its performance was evaluated on the seven test datasets of BirdSet, covering different geographical regions. AudioProtoPNet outperformed the state-of-the-art model Perch, achieving an average AUROC of 0.90 and a cmAP of 0.42, with relative improvements of 7.1% and 16.7% over Perch, respectively. These results demonstrate that even for the challenging task of multi-label bird sound classification, it is possible to develop powerful yet inherently interpretable deep learning models that provide valuable insights for ornithologists and machine learning engineers.
- Abstract(参考訳): 深層学習モデルは、声の発声に基づいて多数の鳥類を認識できるようにすることにより、音響鳥のモニタリングを著しく進歩させた。
しかし、従来のディープラーニングモデルはブラックボックスであり、その基盤となる計算に関する洞察を提供しておらず、その有用性を鳥類学者や機械学習エンジニアに限定している。
説明可能なモデルは、デバッグ、知識発見、信頼、学際的なコラボレーションを容易にする。
本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。
ConvNeXtのバックボーンを使って埋め込みを抽出する本質的に解釈可能なモデルであり、分類層はこれらの埋め込みに基づいて訓練されたプロトタイプの学習分類器に置き換えられる。
分類器は、訓練事例のスペクトログラムから、各鳥類の発声の原型パターンを学習する。
推測中、オーディオ録音は、埋め込み空間における学習されたプロトタイプと比較することにより分類され、モデルの決定と各鳥類の最も情報に富む埋め込みについての洞察を提供する。
このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
その性能は、異なる地理的領域をカバーする7つのテストデータセットで評価された。
AudioProtoPNetは最先端のPerchよりも優れており、平均AUROCは0.90、cmAPは0.42、相対改善は7.1%、Perchは16.7%だった。
これらの結果は,複数ラベルの鳥の音の分類が困難な作業であっても,鳥類学者や機械学習技術者にとって貴重な洞察を提供する,強力かつ本質的に解釈可能な深層学習モデルを開発することが可能であることを証明している。
関連論文リスト
- TinyChirp: Bird Song Recognition Using TinyML Models on Low-power Wireless Acoustic Sensors [1.0790796076947324]
大規模な生物多様性のモニタリングは難しい。
微細な粒度の種の検出と識別には、高度に正確な機械学習(ML)手法が必要である。
これらのモデルを低消費電力デバイスにデプロイするには、新しい圧縮技術とモデルアーキテクチャが必要である。
論文 参考訳(メタデータ) (2024-07-31T08:57:42Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Comparison of self-supervised in-domain and supervised out-domain transfer learning for bird species recognition [0.19183348587701113]
別のタスクを支援するために事前訓練されたモデルの重みを移すことは、現代のディープラーニングの重要な部分となっている。
本実験は,鳥種認識のためのドメイン内モデルとデータセットの有用性を実証するものである。
論文 参考訳(メタデータ) (2024-04-26T08:47:28Z) - Auto deep learning for bioacoustic signals [2.833479881983341]
本研究では,鳥の発声の多クラス分類の精度と効率を高めるために,自動深層学習の可能性について検討した。
西地中海のWetland Birdsデータセットを用いて、自動機械学習フレームワークであるAutoKerasについて検討した。
論文 参考訳(メタデータ) (2023-11-08T07:22:39Z) - Diffusion Models Beat GANs on Image Classification [37.70821298392606]
拡散モデルは、画像生成、復調、塗装、超解像、操作などの最先端の手法として注目されている。
本稿では,これらの埋め込みは識別情報を含むため,ノイズ予測タスクを超えて有用であり,分類にも活用できることを示す。
注意深い特徴選択とプーリングにより、拡散モデルは、分類タスクにおいて同等な生成的識別的手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - Knowledge is a Region in Weight Space for Fine-tuned Language Models [48.589822853418404]
異なるモデルの重み空間と下層の損失景観が相互に相互に相互に相互に相互に相互に相互に関連しているかを検討する。
同じデータセットで微調整された言語モデルが重み空間で厳密なクラスタを形成し、同じタスクから異なるデータセットで微調整されたモデルがより緩いクラスタを形成することを示す。
論文 参考訳(メタデータ) (2023-02-09T18:59:18Z) - An empirical investigation into audio pipeline approaches for
classifying bird species [0.9158130615768508]
本論文は,鳥類種のモニタリングに適した音声分類パイプラインの側面について検討する。
従来のディープニューラルネットワーク(DNN)の有効性を探求するアプローチと、畳み込みレイヤを利用するアプローチの2つを考慮する。
論文 参考訳(メタデータ) (2021-08-10T05:02:38Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z) - Improving Label Quality by Jointly Modeling Items and Annotators [68.8204255655161]
雑音アノテータから基底真理ラベルを学習するための完全ベイズ的枠組みを提案する。
我々のフレームワークは、ラベル分布上の生成的ベイズソフトクラスタリングモデルを古典的なDavidとSkeneのジョイントアノテータデータモデルに分解することでスケーラビリティを保証する。
論文 参考訳(メタデータ) (2021-06-20T02:15:20Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。