論文の概要: Smart Passive Acoustic Monitoring: Embedding a Classifier on AudioMoth Microcontroller
- arxiv url: http://arxiv.org/abs/2605.03412v1
- Date: Tue, 05 May 2026 06:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.803271
- Title: Smart Passive Acoustic Monitoring: Embedding a Classifier on AudioMoth Microcontroller
- Title(参考訳): スマートパッシブ音響モニタリング:AudioMothマイクロコントローラに分類器を埋め込む
- Authors: Louis Lerbourg, Paul Peyret, Juliette Linossier, Marielle Malfante,
- Abstract要約: 本稿では,AudioMothマイクロコントローラに直接分類器を埋め込むことで,音像をその場で解析できるスマートPAMシステムを提案する。
具体的には、1次元畳み込みニューラルネットワーク(1D-CNN)を最適化し、生音声を分類する。
このモデルは、Scopoli Shearwater seabirds(絶滅危惧種)の特定の呼び出しに焦点を当て、分類精度91%の現実世界のデータセットで訓練されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Passive Acoustic Monitoring (PAM) is an efficient and non-invasive method for surveying ecosystems at a reduced cost. Typically, autonomous recorders allow the acquisition of vast bioacoustic datasets which are then analyzed. However, power consumption and data storage are both scarce and limit the duration of acquisition campaigns. To address this issue, we propose a smart PAM system which allows the in-situ analysis of the soundscape by embedding a classifier directly onto an AudioMoth microcontroller. Specifically, we propose an optimized yet simple 1D Convolutional Neural Network (1D-CNN) to classify the raw audio. The model focuses on the specific call of Scopoli Shearwater seabirds (endangered species) and is trained on a real-world dataset with a classification accuracy of 91\% (balanced accuracy of 89\%). We also propose a process to optimize the model to fit the severe resource constraints of the AudioMoth, achieving a \~10kB RAM memory footprint and 20ms inference time. Finally, we present an open-source tutorial of our model optimization and export strategy which can be used for embedding models beyond the scope of our study. Our modified version of the AudioMoth firmware adds two functions: (F1) which selectively records data when the target species has been detected and (F2) which logs the continuous classification results in real time. This work intends to facilitate the conception of intelligent sensors, enhancing the efficiency and scalability of bioacoustic monitoring campaigns.
- Abstract(参考訳): パッシブ・アコースティック・モニタリング(PAM)は、生態系を低コストで調査するための効率的で非侵襲的な手法である。
通常、自律的なレコーダーは、分析される巨大なバイオ音響データセットの取得を可能にする。
しかし、電力消費とデータストレージはどちらも少ないため、買収キャンペーンの期間は限られている。
そこで本研究では,AudioMothマイクロコントローラに直接分類器を埋め込むことで,音像をその場で解析できるスマートPAMシステムを提案する。
具体的には、1次元畳み込みニューラルネットワーク(1D-CNN)を最適化し、生音声を分類する。
このモデルは、Scopoli Shearwater seabirds(絶滅危惧種)の特定の呼び出しに焦点を当て、91\%(平衡精度89\%)の分類精度で現実世界のデータセットで訓練されている。
また,AudioMothの厳しいリソース制約に適合するようにモデルを最適化し,メモリフットプリントが約10kB,推定時間が20msとなるプロセスを提案する。
最後に,モデル最適化と輸出戦略のオープンソースチュートリアルについて述べる。
修正版のAudioMothファームウェアには,対象種が検出された際にデータを選択的に記録する機能と,連続的な分類結果をリアルタイムで記録する機能がある。
この研究は、インテリジェントセンサーのコンセプト化を促進し、バイオ音響モニタリングキャンペーンの効率性とスケーラビリティを高めることを目的としている。
関連論文リスト
- Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs [53.41256816230278]
最近のオーディオ大言語モデル(AudioLLMs)は、顕著な性能逆転を示す。
複雑な推論タスクには優れるが、音の微妙な知覚では一貫して性能が劣る。
音声情報を3つの明示的な構成要素に整理する総合的かつ構造化された監視フレームワークであるUnified Audio (UAS)を提案する。
論文 参考訳(メタデータ) (2026-04-14T09:30:12Z) - A Human-Inspired Decoupled Architecture for Efficient Audio Representation Learning [0.0]
本稿では,HEAR(Human-inspireed Efficient Audio Representation)を提案する。
HEARは処理パイプラインを,ローカル特徴抽出のためのアコースティックモデルと,グローバルセマンティック統合のためのタスクモデルという,2つの専用モジュールに分割する。
実験の結果、HEARは推定に15Mパラメータと9.47GFLOPしか必要とせず、従来の基礎モデルの計算コストのごく一部で動作していることがわかった。
論文 参考訳(メタデータ) (2026-03-27T06:09:03Z) - Lightweight Hopfield Neural Networks for Bioacoustic Detection and Call Monitoring of Captive Primates [0.0]
本稿では,ホップフィールドニューラルネットワークアーキテクチャを用いた,透過的で軽量かつ高速に学習可能な連想型メモリAIモデルを提案する。
コウモリのエコーロケーションを検知するために開発されたモデルに適応したこのモデルは、捕獲された絶滅危惧種である白黒ラッフェのVarecia variegataの発声をモニターする。
論文 参考訳(メタデータ) (2025-11-04T17:46:03Z) - Thinking While Listening: Simple Test Time Scaling For Audio Classification [61.3564313676731]
本稿では,ニューラルネットワークが日常の音を聴きながら"考える"ことを可能にするフレームワークを提案する。
大規模言語モデルの推論能力の最近の進歩により、我々は2つの中心的な疑問に対処する: (i) 既存の音声分類パイプラインに思考を組み込んで、カテゴリ空間での推論を可能にし、パフォーマンスを向上させる方法、(ii) 思考とテストタイムのスケーリングの両方をサポートするために、新しいアーキテクチャをゼロから設計することができるか。
論文 参考訳(メタデータ) (2025-09-24T01:17:24Z) - First-of-its-kind AI model for bioacoustic detection using a lightweight associative memory Hopfield neural network [0.0]
生物音響学における課題は、受動的音響モニタリング装置から生成される膨大な量のデータを分析することである。
我々のモデル定式化は、生物音響解析に現在のAIモデルを使用する際に発生する重要な問題に対処する。
これは、透過的で説明可能なホップフィールドニューラルネットワークを介して連想メモリを使用して、信号を格納し、類似した信号を検知する。
論文 参考訳(メタデータ) (2025-07-14T16:37:20Z) - Contrastive and Transfer Learning for Effective Audio Fingerprinting through a Real-World Evaluation Protocol [1.8842532732272859]
歌の識別の最近の進歩は、ディープニューラルネットワークを利用して生波形から直接コンパクトな音声指紋を学習している。
これらの手法は制御条件下では良好に動作しますが、ノイズの多い環境でモバイルデバイスを介してオーディオをキャプチャする現実のシナリオでは、その精度は大幅に低下します。
我々は同じ音声の3つの録音を生成し、それぞれが、モバイルデバイスのマイクを使って撮影されるノイズレベルを増大させる。
このプロトコルでは,2つの最新のCNNベースモデルに対して,以前報告したベンチマークと比較すると,大幅な性能低下がみられた。
論文 参考訳(メタデータ) (2025-07-08T15:13:26Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Deep Learning-Based Acoustic Mosquito Detection in Noisy Conditions
Using Trainable Kernels and Augmentations [17.77602155559703]
本研究では,事前処理手法を深層学習モデルに融合させることにより,音声機械学習手法の有効性を高めるための独自のレシピを示す。
本ソリューションは,音声信号から信頼性の高い蚊検出装置を構築するために,コストのかかるランダム検索ではなく,トレーニングによってハイパーパラメータを最適化することにより,トレーニングと推論性能を向上する。
論文 参考訳(メタデータ) (2022-07-28T01:05:40Z) - Noise-resistant Deep Metric Learning with Ranking-based Instance
Selection [59.286567680389766]
PRISM(Probabilistic Ranking-based Instance Selection with Memory)と呼ばれるDMLの耐騒音トレーニング技術を提案する。
PRISMは、ニューラルネットワークの以前のバージョンから抽出された画像特徴との平均的類似性を用いて、ミニバッチ内のノイズデータを識別する。
メモリバンクが生み出す高い計算コストを緩和するために,個々のデータポイントをクラスセンタに置き換える高速化手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T03:22:17Z) - Adaptive Multi-View ICA: Estimation of noise levels for optimal
inference [65.94843987207445]
Adaptive MultiView ICA (AVICA) はノイズの多いICAモデルであり、各ビューは共有された独立したソースと付加的なノイズの線形混合である。
AVICAは、その明示的なMMSE推定器により、他のICA法よりも優れたソース推定値が得られる。
実脳磁図(MEG)データでは,分解がサンプリングノイズに対する感度が低く,ノイズ分散推定が生物学的に妥当であることを示す。
論文 参考訳(メタデータ) (2021-02-22T13:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。