論文の概要: CoarseSoundNet: Building a reliable model for ecological soundscape analysis
- arxiv url: http://arxiv.org/abs/2605.21143v1
- Date: Wed, 20 May 2026 13:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.690141
- Title: CoarseSoundNet: Building a reliable model for ecological soundscape analysis
- Title(参考訳): CoarseSoundNet:生態音環境解析のための信頼性のあるモデルの構築
- Authors: Alexander Gebhard, Andreas Triantafyllopoulos, Dominik Arend, Sandra Müller, Svenja Schmidt, Michael Scherer-Lorenzen, Björn W. Schuller,
- Abstract要約: サウンドスケープは、生物音(動物音)、地球音(自然無生物音)、人類音(人間音)の3種類からなる。
- 参考スコア(独自算出の注目度): 73.44688723989053
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A soundscape is composed of three types of sound: biophony (sounds made by animals), geophony (natural abiotic sounds) and anthropophony (sounds made by humans). A key research question in the field of soundscape ecology is how these components interact with each other, specifically how biophony responds to geophony and anthropophony. Nevertheless, as of today, there are not many analytical instruments that enable the distinct quantification of these elements. Recent machine learning (ML) approaches aim to support automated analysis but often rely on task-specific or clean data, limiting generalisation to noisy passive acoustic monitoring (PAM) recordings. This study presents a clear and reproducible structure to build ML models for coarse soundscape classification and introduces CoarseSoundNet, a deep learning model trained to distinguish biophony, geophony, and anthropophony under realistic PAM conditions. We systematically investigate model architectures, the influence of an additional training class, data composition, and evaluation strategies. Our findings suggest that model performance improves with additional PAM data, especially when similar to the target domain, and by introducing an explicit silence class during training. Class-specific decision thresholds and duration-based constraints further enhance performance, particularly for anthropophony and geophony. Error analyses exhibit challenges for anthropophony due to masking effects and confusions for silence and insect sounds for geophony and biophony. Finally, we conduct an ecological case study which shows that pre-filtering recordings with CoarseSoundNet yields acoustic index trends comparable to ground-truth filtering, supporting its use as an effective preprocessing tool for ecoacoustic analyses.
- Abstract(参考訳): サウンドスケープは、バイオフォニー(動物で作られた音)、ジオフォニー(自然無生物音)、人類学(人間で作られた音)の3種類の音からなる。
サウンドスケープ生態学の分野における重要な研究課題は、これらの成分が相互にどのように相互作用するか、特にバイオフォニーがジオフォニーや人類学にどのように反応するかである。
しかし、今日の時点では、これらの元素の別個の定量化を可能にする分析機器は多くない。
最近の機械学習(ML)アプローチは、自動分析をサポートすることを目的としているが、多くの場合、タスク固有またはクリーンなデータに依存し、一般化をノイズの多いパッシブ・アコースティック・モニタリング(PAM)記録に制限する。
本研究では、粗い音環境分類のためのMLモデルを構築するための明確で再現可能な構造を示し、現実的なPAM条件下でのバイオフォニー、ジオフォニー、人類学の区別を訓練された深層学習モデルであるCoarseSoundNetを紹介した。
モデルアーキテクチャ、追加のトレーニングクラスの影響、データ構成、評価戦略を体系的に検討する。
以上の結果から,モデル性能は,特に対象ドメインと類似する場合にPAMデータを追加することにより向上し,トレーニング中に明示的な沈黙クラスを導入することが示唆された。
クラス固有の決定しきい値と期間に基づく制約は、特に人類学やジオフォニーのパフォーマンスをさらに向上させる。
誤り分析は、マスク効果による人類学の課題と、ジオフォニーとバイオフォニーのための沈黙と昆虫の音の混乱を示す。
最後に,CoarseSoundNetを用いたプレフィルタ記録は,地中構造フィルタリングに匹敵する音響指標の傾向を示し,エコ音響解析のための効果的な前処理ツールとしての利用を支援する。
関連論文リスト
- Crossing the Species Divide: Transfer Learning from Speech to Animal Sounds [24.203596224724848]
自己教師型音声モデルは,音声処理において顕著な性能を示したが,その非音声データに対する効果は未検討のままである。
我々は,HuBERT,WavLM,XEUSなどのモデルが,分類群全体にわたって動物の音の豊かな潜伏表現を生成可能であることを示す。
その結果, 微調整された生体音響事前学習モデルと競合し, ノイズローバスト事前学習装置の影響を示す。
論文 参考訳(メタデータ) (2025-09-04T12:39:05Z) - Synthetic data enables context-aware bioacoustic sound event detection [18.607850799822568]
本研究では,文脈内学習能力を向上させる基礎モデル学習手法を提案する。
我々は、8.8万時間以上の強いラベル付き音声を生成し、クエリ・バイ・サンプル・トランスフォーマー・ベース・モデルを用いて、バイオアコースティック・サウンド・イベントの検出を行う。
トレーニングされたモデルをAPIを通じて利用可能にすることで、生態学者や生態学者にバイオ音響音響イベント検出のためのトレーニング不要のツールを提供する。
論文 参考訳(メタデータ) (2025-03-01T02:03:22Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Efficient speech detection in environmental audio using acoustic
recognition and knowledge distillation [3.732312301223128]
生物多様性の音響モニタリングが重要なモニタリングツールとして登場した。
ディープラーニングにおける大きな進歩にも関わらず、大規模なニューラルネットワークをコンパクトデバイスにデプロイすることは、メモリとレイテンシの制約による問題を引き起こす。
本手法は,バイオ音響学における音声検出のための,効率的で軽量な学生モデルの設計に知識蒸留技術を活用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-14T17:55:32Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。