論文の概要: AudioProtoPNet: An interpretable deep learning model for bird sound classification
- arxiv url: http://arxiv.org/abs/2404.10420v2
- Date: Wed, 29 May 2024 14:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 22:52:03.746083
- Title: AudioProtoPNet: An interpretable deep learning model for bird sound classification
- Title(参考訳): AudioProtoPNet:鳥音分類のための解釈可能なディープラーニングモデル
- Authors: René Heinrich, Bernhard Sick, Christoph Scholz,
- Abstract要約: 本稿では,そのモデルアーキテクチャによる固有解釈性を提供する音声分類に,Prototypeal Part Network (ProtoPNet) を適用した。
本手法は,特徴抽出のためのConvNeXtバックボーンアーキテクチャに基づいて,訓練データのスペクトログラムを用いて各鳥類のパターンを学習する。
- 参考スコア(独自算出の注目度): 1.6298921134113031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, scientists have proposed several deep learning models to monitor the diversity of bird species. These models can detect bird species with high accuracy by analyzing acoustic signals. However, traditional deep learning algorithms are black-box models that provide no insight into their decision-making process. For domain experts, such as ornithologists, it is crucial that these models are not only efficient, but also interpretable in order to be used as assistive tools. In this study, we present an adaption of the Prototypical Part Network (ProtoPNet) for audio classification that provides inherent interpretability through its model architecture. Our approach is based on a ConvNeXt backbone architecture for feature extraction and learns prototypical patterns for each bird species using spectrograms of the training data. Classification of new data is done by comparison with these prototypes in latent space, which simultaneously serve as easily understandable explanations for the model's decisions. We evaluated the performance of our model on seven different datasets representing bird species from different geographical regions. In our experiments, the model showed excellent results, achieving an average AUROC of 0.82 and an average cmAP of 0.37 across the seven datasets, making it comparable to state-of-the-art black-box models for bird sound classification. Thus, this work demonstrates that even for the challenging task of bioacoustic bird classification, powerful yet interpretable deep learning models can be developed to provide valuable insights to domain experts.
- Abstract(参考訳): 近年、鳥類の多様性を監視するための深層学習モデルが提案されている。
これらのモデルは音響信号を解析することにより高精度に鳥種を検出することができる。
しかし、従来のディープラーニングアルゴリズムは、意思決定プロセスに関する洞察を提供するブラックボックスモデルである。
鳥類学者のようなドメインの専門家にとって、これらのモデルは効率的であるだけでなく、補助ツールとして使われるために解釈可能であることが重要である。
本研究では,そのモデルアーキテクチャによる固有解釈性を提供する音声分類に,Prototypeal Part Network (ProtoPNet) を適用した。
本手法は,特徴抽出のためのConvNeXtバックボーンアーキテクチャに基づいて,訓練データのスペクトログラムを用いて各鳥類の原型パターンを学習する。
新しいデータの分類は、これらのプロトタイプを潜在空間で比較することで行われ、同時にモデルの判断に対する理解しやすい説明を提供する。
異なる地理的領域の鳥種を表す7つの異なるデータセットを用いて,本モデルの性能評価を行った。
実験の結果, 平均AUROCは0.82, 平均cmAPは0.37となり, 鳥の音響分類における最先端のブラックボックスモデルに匹敵する結果を得た。
そこで本研究は, 生物音響鳥類分類の困難な課題においても, 強力かつ解釈可能な深層学習モデルを開発して, ドメインの専門家に貴重な洞察を提供することを実証する。
関連論文リスト
- BirdSet: A Large-Scale Dataset for Audio Classification in Avian Bioacoustics [2.2399415927517414]
$texttBirdSet$は、鳥のバイオ音響に焦点を当てたオーディオ分類のための大規模なベンチマークデータセットである。
$texttBirdSet$はAudioSetを上回り、1万近いクラスから6800時間以上録音する。
我々は,3つの異なる学習シナリオにまたがる多ラベル分類において,よく知られた6つのDLモデルをベンチマークした。
論文 参考訳(メタデータ) (2024-03-15T15:10:40Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Self-Supervised Learning for Few-Shot Bird Sound Classification [10.395255631261458]
音声における自己教師あり学習(SSL)は、様々な領域において大きな可能性を秘めている。
本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。
論文 参考訳(メタデータ) (2023-12-25T22:33:45Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Machine Learning-based Classification of Birds through Birdsong [0.3908842679355254]
我々はMel Frequency Cepstral Coefficients (MFCC) と機械学習モデルを組み合わせてオーストラリアの鳥類を同定する。
調査対象として選抜された30羽のうち,上位5羽の鳥の総合的精度は91%であった。
鳥152種からなる、より困難で多様なオーディオファイルにモデルを適用すれば、精度は58%になる。
論文 参考訳(メタデータ) (2022-12-09T06:20:50Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Few-shot Long-Tailed Bird Audio Recognition [3.8073142980733]
本研究では,音環境記録を解析するための音響検出・分類パイプラインを提案する。
私たちのソリューションは、Kaggleで開催されたBirdCLEF 2022 Challengeで、807チームの18位を獲得しました。
論文 参考訳(メタデータ) (2022-06-22T04:14:25Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。