論文の概要: AudioProtoPNet: An interpretable deep learning model for bird sound classification
- arxiv url: http://arxiv.org/abs/2404.10420v3
- Date: Wed, 13 Nov 2024 16:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:08:34.619902
- Title: AudioProtoPNet: An interpretable deep learning model for bird sound classification
- Title(参考訳): AudioProtoPNet:鳥音分類のための解釈可能なディープラーニングモデル
- Authors: René Heinrich, Lukas Rauch, Bernhard Sick, Christoph Scholz,
- Abstract要約: 本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。
これは本質的に解釈可能なモデルであり、埋め込みを抽出するためにConvNeXtのバックボーンを使用する。
このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
- 参考スコア(独自算出の注目度): 1.49199020343864
- License:
- Abstract: Deep learning models have significantly advanced acoustic bird monitoring by being able to recognize numerous bird species based on their vocalizations. However, traditional deep learning models are black boxes that provide no insight into their underlying computations, limiting their usefulness to ornithologists and machine learning engineers. Explainable models could facilitate debugging, knowledge discovery, trust, and interdisciplinary collaboration. This study introduces AudioProtoPNet, an adaptation of the Prototypical Part Network (ProtoPNet) for multi-label bird sound classification. It is an inherently interpretable model that uses a ConvNeXt backbone to extract embeddings, with the classification layer replaced by a prototype learning classifier trained on these embeddings. The classifier learns prototypical patterns of each bird species' vocalizations from spectrograms of training instances. During inference, audio recordings are classified by comparing them to the learned prototypes in the embedding space, providing explanations for the model's decisions and insights into the most informative embeddings of each bird species. The model was trained on the BirdSet training dataset, which consists of 9,734 bird species and over 6,800 hours of recordings. Its performance was evaluated on the seven test datasets of BirdSet, covering different geographical regions. AudioProtoPNet outperformed the state-of-the-art model Perch, achieving an average AUROC of 0.90 and a cmAP of 0.42, with relative improvements of 7.1% and 16.7% over Perch, respectively. These results demonstrate that even for the challenging task of multi-label bird sound classification, it is possible to develop powerful yet inherently interpretable deep learning models that provide valuable insights for ornithologists and machine learning engineers.
- Abstract(参考訳): 深層学習モデルは、声の発声に基づいて多数の鳥類を認識できるようにすることにより、音響鳥のモニタリングを著しく進歩させた。
しかし、従来のディープラーニングモデルはブラックボックスであり、その基盤となる計算に関する洞察を提供しておらず、その有用性を鳥類学者や機械学習エンジニアに限定している。
説明可能なモデルは、デバッグ、知識発見、信頼、学際的なコラボレーションを容易にする。
本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。
ConvNeXtのバックボーンを使って埋め込みを抽出する本質的に解釈可能なモデルであり、分類層はこれらの埋め込みに基づいて訓練されたプロトタイプの学習分類器に置き換えられる。
分類器は、訓練事例のスペクトログラムから、各鳥類の発声の原型パターンを学習する。
推測中、オーディオ録音は、埋め込み空間における学習されたプロトタイプと比較することにより分類され、モデルの決定と各鳥類の最も情報に富む埋め込みについての洞察を提供する。
このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
その性能は、異なる地理的領域をカバーする7つのテストデータセットで評価された。
AudioProtoPNetは最先端のPerchよりも優れており、平均AUROCは0.90、cmAPは0.42、相対改善は7.1%、Perchは16.7%だった。
これらの結果は,複数ラベルの鳥の音の分類が困難な作業であっても,鳥類学者や機械学習技術者にとって貴重な洞察を提供する,強力かつ本質的に解釈可能な深層学習モデルを開発することが可能であることを証明している。
関連論文リスト
- BirdSet: A Large-Scale Dataset for Audio Classification in Avian Bioacoustics [2.2399415927517414]
$texttBirdSet$は、鳥のバイオ音響に焦点を当てたオーディオ分類のための大規模なベンチマークデータセットである。
$texttBirdSet$はAudioSetを上回り、1万近いクラスから6800時間以上録音する。
我々は,3つの異なる学習シナリオにまたがる多ラベル分類において,よく知られた6つのDLモデルをベンチマークした。
論文 参考訳(メタデータ) (2024-03-15T15:10:40Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Self-Supervised Learning for Few-Shot Bird Sound Classification [10.395255631261458]
音声における自己教師あり学習(SSL)は、様々な領域において大きな可能性を秘めている。
本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。
論文 参考訳(メタデータ) (2023-12-25T22:33:45Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Machine Learning-based Classification of Birds through Birdsong [0.3908842679355254]
我々はMel Frequency Cepstral Coefficients (MFCC) と機械学習モデルを組み合わせてオーストラリアの鳥類を同定する。
調査対象として選抜された30羽のうち,上位5羽の鳥の総合的精度は91%であった。
鳥152種からなる、より困難で多様なオーディオファイルにモデルを適用すれば、精度は58%になる。
論文 参考訳(メタデータ) (2022-12-09T06:20:50Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Few-shot Long-Tailed Bird Audio Recognition [3.8073142980733]
本研究では,音環境記録を解析するための音響検出・分類パイプラインを提案する。
私たちのソリューションは、Kaggleで開催されたBirdCLEF 2022 Challengeで、807チームの18位を獲得しました。
論文 参考訳(メタデータ) (2022-06-22T04:14:25Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。