論文の概要: AudioProtoPNet: An interpretable deep learning model for bird sound classification
- arxiv url: http://arxiv.org/abs/2404.10420v1
- Date: Tue, 16 Apr 2024 09:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 17:23:30.975606
- Title: AudioProtoPNet: An interpretable deep learning model for bird sound classification
- Title(参考訳): AudioProtoPNet:鳥音分類のための解釈可能なディープラーニングモデル
- Authors: René Heinrich, Bernhard Sick, Christoph Scholz,
- Abstract要約: 本稿では,そのモデルアーキテクチャによる固有解釈性を提供する音声分類に,Prototypeal Part Network (ProtoPNet) を適用した。
本手法は,特徴抽出のためのConvNeXtバックボーンアーキテクチャに基づいて,訓練データのスペクトログラムを用いて各鳥類のパターンを学習する。
- 参考スコア(独自算出の注目度): 1.6298921134113031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, scientists have proposed several deep learning models to monitor the diversity of bird species. These models can detect bird species with high accuracy by analyzing acoustic signals. However, traditional deep learning algorithms are black-box models that provide no insight into their decision-making process. For domain experts, such as ornithologists, it is crucial that these models are not only efficient, but also interpretable in order to be used as assistive tools. In this study, we present an adaption of the Prototypical Part Network (ProtoPNet) for audio classification that provides inherent interpretability through its model architecture. Our approach is based on a ConvNeXt backbone architecture for feature extraction and learns prototypical patterns for each bird species using spectrograms of the training data. Classification of new data is done by comparison with these prototypes in latent space, which simultaneously serve as easily understandable explanations for the model's decisions.
- Abstract(参考訳): 近年、鳥類の多様性を監視するための深層学習モデルが提案されている。
これらのモデルは音響信号を解析することにより高精度に鳥種を検出することができる。
しかし、従来のディープラーニングアルゴリズムは、意思決定プロセスに関する洞察を提供するブラックボックスモデルである。
鳥類学者のようなドメインの専門家にとって、これらのモデルは効率的であるだけでなく、補助ツールとして使われるために解釈可能であることが重要である。
本研究では,そのモデルアーキテクチャによる固有解釈性を提供する音声分類に,Prototypeal Part Network (ProtoPNet) を適用した。
本手法は,特徴抽出のためのConvNeXtバックボーンアーキテクチャに基づいて,訓練データのスペクトログラムを用いて各鳥類の原型パターンを学習する。
新しいデータの分類は、これらのプロトタイプを潜在空間で比較することで行われ、同時にモデルの判断に対する理解しやすい説明を提供する。
関連論文リスト
- Comparison of self-supervised in-domain and supervised out-domain transfer learning for bird species recognition [0.19183348587701113]
別のタスクを支援するために事前訓練されたモデルの重みを移すことは、現代のディープラーニングの重要な部分となっている。
本実験は,鳥種認識のためのドメイン内モデルとデータセットの有用性を実証するものである。
論文 参考訳(メタデータ) (2024-04-26T08:47:28Z) - Interpretable by Design: Wrapper Boxes Combine Neural Performance with
Faithful Explanations [3.8059763597999012]
モデル予測のための忠実な例に基づく説明を生成するための一般的なアプローチであるラッパーボックスを提案する。
ニューラルネットワークを通常のように訓練した後、学習された特徴表現は古典的な解釈可能なモデルに入力され、実際の予測を実行する。
論文 参考訳(メタデータ) (2023-11-15T01:50:53Z) - Auto deep learning for bioacoustic signals [2.833479881983341]
本研究では,鳥の発声の多クラス分類の精度と効率を高めるために,自動深層学習の可能性について検討した。
西地中海のWetland Birdsデータセットを用いて、自動機械学習フレームワークであるAutoKerasについて検討した。
論文 参考訳(メタデータ) (2023-11-08T07:22:39Z) - An empirical investigation into audio pipeline approaches for
classifying bird species [0.9158130615768508]
本論文は,鳥類種のモニタリングに適した音声分類パイプラインの側面について検討する。
従来のディープニューラルネットワーク(DNN)の有効性を探求するアプローチと、畳み込みレイヤを利用するアプローチの2つを考慮する。
論文 参考訳(メタデータ) (2021-08-10T05:02:38Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - One-shot learning for acoustic identification of bird species in
non-stationary environments [5.177947445379688]
本稿では,クラス辞書の変更を検知し,新しいクラスをオンザフライで組み込むフレームワークを提案する。
我々は,logMel スペクトログラム空間で動作する Siamese Neural Network からなるワンショット学習アーキテクチャを設計する。
論文 参考訳(メタデータ) (2021-05-01T09:43:20Z) - Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。
私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。
提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文 参考訳(メタデータ) (2021-04-16T06:41:20Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Few-shot Classification via Adaptive Attention [93.06105498633492]
ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する新しい数ショット学習手法を提案する。
実験で実証したように,提案モデルでは,様々なベンチマーク数ショット分類と微粒化認識データセットを用いて,最先端の分類結果を達成している。
論文 参考訳(メタデータ) (2020-08-06T05:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。