論文の概要: Towards small and accurate convolutional neural networks for acoustic
biodiversity monitoring
- arxiv url: http://arxiv.org/abs/2312.03666v1
- Date: Wed, 6 Dec 2023 18:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:00:41.066411
- Title: Towards small and accurate convolutional neural networks for acoustic
biodiversity monitoring
- Title(参考訳): 音響生体多様性モニタリングのための小型・高精度畳み込みニューラルネットワーク
- Authors: Serge Zaugg, Mike van der Schaar, Florence Erbs, Antonio Sanchez, Joan
V. Castell, Emiliano Ramallo, Michel Andr\'e
- Abstract要約: CNNは推論時に高速で、優れた分類性能を実現する。
熱帯雨林の生態系からの録音が使用された。
RF持続時間は分類性能の主要な要因であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automated classification of animal sounds is a prerequisite for large-scale
monitoring of biodiversity. Convolutional Neural Networks (CNNs) are among the
most promising algorithms but they are slow, often achieve poor classification
in the field and typically require large training data sets. Our objective was
to design CNNs that are fast at inference time and achieve good classification
performance while learning from moderate-sized data. Recordings from a
rainforest ecosystem were used. Start and end-point of sounds from 20 bird
species were manually annotated. Spectrograms from 10 second segments were used
as CNN input. We designed simple CNNs with a frequency unwrapping layer
(SIMP-FU models) such that any output unit was connected to all spectrogram
frequencies but only to a sub-region of time, the Receptive Field (RF). Our
models allowed experimentation with different RF durations. Models either used
the time-indexed labels that encode start and end-point of sounds or simpler
segment-level labels. Models learning from time-indexed labels performed
considerably better than their segment-level counterparts. Best classification
performances was achieved for models with intermediate RF duration of 1.5
seconds. The best SIMP-FU models achieved AUCs over 0.95 in 18 of 20 classes on
the test set. On compact low-cost hardware the best SIMP-FU models evaluated up
to seven times faster than real-time data acquisition. RF duration was a major
driver of classification performance. The optimum of 1.5 s was in the same
range as the duration of the sounds. Our models achieved good classification
performance while learning from moderate-sized training data. This is explained
by the usage of time-indexed labels during training and adequately sized RF.
Results confirm the feasibility of deploying small CNNs with good
classification performance on compact low-cost devices.
- Abstract(参考訳): 動物の音の自動分類は、生物多様性の大規模モニタリングに必須である。
畳み込みニューラルネットワーク(CNN)は最も有望なアルゴリズムであるが、遅いため、しばしば分野の分類が不十分で、通常は大規模なトレーニングデータセットを必要とする。
我々の目的は,中程度のデータから学習しながら,推論時に高速なCNNを設計し,優れた分類性能を実現することであった。
熱帯雨林からの録音が使用された。
20種の鳥の音の開始と終了を手動で注釈した。
10秒セグメントのスペクトルをCNN入力として使用した。
周波数アンラッピング層(simp-fuモデル)を持つ単純なcnnを設計し、全ての出力ユニットは全てのスペクトログラム周波数に接続されたが、サブリージョンであるレセプティブフィールド(rf)にのみ接続された。
我々のモデルは異なるRF持続時間での実験を可能にした。
モデルは、音の開始点と終了点をエンコードするタイムインデックスラベルまたはより単純なセグメントレベルラベルを使用する。
タイムインデックスラベルから学ぶモデルは、セグメントレベルのラベルよりもかなりよく機能しました。
中間RF持続時間1.5秒のモデルでは, 最高の分類性能が得られた。
最高のSIMP-FUモデルはテストセットの20クラス中18クラスで0.95以上のAUCを達成した。
小型の低価格ハードウェアでは、最高のSIMP-FUモデルはリアルタイムデータ取得の7倍の速度で評価された。
RF持続時間は分類性能の主要な要因であった。
1.5秒の最適値は音の持続時間と同じ範囲であった。
我々のモデルは中等級の訓練データから学習しながら優れた分類性能を得た。
これは、トレーニング中のタイムインデックスラベルの使用と適切なサイズのRFによって説明される。
その結果,小型低コストデバイス上での分類性能に優れた小型cnnの展開が可能となった。
関連論文リスト
- How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Convolutional Neural Networks for the classification of glitches in
gravitational-wave data streams [52.77024349608834]
我々は、高度LIGO検出器のデータから過渡ノイズ信号(グリッチ)と重力波を分類する。
どちらも、Gravity Spyデータセットを使用して、スクラッチからトレーニングされた、教師付き学習アプローチのモデルを使用します。
また、擬似ラベルの自動生成による事前学習モデルの自己教師型アプローチについても検討する。
論文 参考訳(メタデータ) (2023-03-24T11:12:37Z) - Lightweight Hybrid CNN-ELM Model for Multi-building and Multi-floor
Classification [6.154022105385209]
本稿では,CNN と ELM の軽量な組み合わせを提案する。
その結果,提案モデルはベンチマークよりも58%高速であり,分類精度はわずかに向上した。
論文 参考訳(メタデータ) (2022-04-21T21:48:01Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Animal Behavior Classification via Accelerometry Data and Recurrent
Neural Networks [11.099308746733028]
各種リカレントニューラルネットワーク(RNN)モデルを用いた加速度計測データを用いた動物行動の分類について検討した。
検討したモデルの分類性能と複雑性を評価する。
また、評価には2つの最先端畳み込みニューラルネットワーク(CNN)ベースの時系列分類モデルも含んでいる。
論文 参考訳(メタデータ) (2021-11-24T23:28:25Z) - A robust approach for deep neural networks in presence of label noise:
relabelling and filtering instances during training [14.244244290954084]
我々は、任意のCNNで使用できるRAFNIと呼ばれるラベルノイズに対する堅牢なトレーニング戦略を提案する。
RAFNIは、インスタンスをフィルタリングする2つのメカニズムと、インスタンスをリラベルする1つのメカニズムからなる。
いくつかのサイズと特徴の異なるデータセットを用いて,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-08T16:11:31Z) - Time-Frequency Localization Using Deep Convolutional Maxout Neural
Network in Persian Speech Recognition [0.0]
一部の哺乳類の聴覚ニューロン系における時間周波数の柔軟性は、認識性能を向上させる。
本稿では,ASR音響モデルにおける音声信号情報の時間的局所化のためのCNNに基づく構造を提案する。
TFCMNNモデルの平均認識スコアは、従来のモデルの平均よりも約1.6%高い。
論文 参考訳(メタデータ) (2021-08-09T05:46:58Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - On the Performance of Convolutional Neural Networks under High and Low
Frequency Information [13.778851745408133]
画像の高周波・低周波情報に対するCNNモデルの性能について検討する。
トレーニング中のフィルタリングに基づくデータ拡張を提案する。
堅牢性と低周波の一般化の観点から,良好な性能向上が観察されている。
論文 参考訳(メタデータ) (2020-10-30T17:54:45Z) - Deep learning for gravitational-wave data analysis: A resampling
white-box approach [62.997667081978825]
我々は、LIGO検出器からの単一干渉計データを用いて、畳み込みニューラルネットワーク(CNN)を用いて、コンパクトなバイナリコレッセンスにおける重力波(GW)信号を検出する。
CNNはノイズを検出するのに非常に正確だが、GW信号のリコールに十分な感度がないため、CNNはGWトリガの生成よりもノイズ低減に適している。
論文 参考訳(メタデータ) (2020-09-09T03:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。