論文の概要: WhaleVAD-BPN: Improving Baleen Whale Call Detection with Boundary Proposal Networks and Post-processing Optimisation
- arxiv url: http://arxiv.org/abs/2510.21280v1
- Date: Fri, 24 Oct 2025 09:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.425079
- Title: WhaleVAD-BPN: Improving Baleen Whale Call Detection with Boundary Proposal Networks and Post-processing Optimisation
- Title(参考訳): WhaleVAD-BPN:境界提案ネットワークによるバレンクジラ呼検出と後処理最適化
- Authors: Christiaan M. Geldenhuys, Günther Tonitz, Thomas R. Niesler,
- Abstract要約: 本稿では,既存の軽量音響イベント検出システムを拡張した境界提案ネットワーク(BPN)を提案する。
BPNはイメージオブジェクト検出の研究に触発され、偽陽性検出の回数を減らすことを目的としている。
既存のSEDシステムに追加された場合、BPNは16.8%の精度向上と21.3%と9.4%のF1スコアの改善を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While recent sound event detection (SED) systems can identify baleen whale calls in marine audio, challenges related to false positive and minority-class detection persist. We propose the boundary proposal network (BPN), which extends an existing lightweight SED system. The BPN is inspired by work in image object detection and aims to reduce the number of false positive detections. It achieves this by using intermediate latent representations computed within the backbone classification model to gate the final output. When added to an existing SED system, the BPN achieves a 16.8 % absolute increase in precision, as well as 21.3 % and 9.4 % improvements in the F1-score for minority-class d-calls and bp-calls, respectively. We further consider two approaches to the selection of post-processing hyperparameters: a forward-search and a backward-search. By separately optimising event-level and frame-level hyperparameters, these two approaches lead to considerable performance improvements over parameters selected using empirical methods. The complete WhaleVAD-BPN system achieves a cross-validated development F1-score of 0.475, which is a 9.8 % absolute improvement over the baseline.
- Abstract(参考訳): 最近の音声イベント検出(SED)システムは、海洋オーディオにおけるハクジラの鳴き声を識別できるが、偽陽性や少数階級の検出に関する課題は継続する。
本稿では,既存の軽量SEDシステムを拡張した境界提案ネットワーク(BPN)を提案する。
BPNはイメージオブジェクト検出の研究に触発され、偽陽性検出の回数を減らすことを目的としている。
これは、バックボーン分類モデル内で計算された中間潜在表現を使用して最終的な出力をゲートすることで実現される。
既存のSEDシステムに追加された場合、BPNは16.8%の精度向上と21.3%と9.4%のF1スコアの改善を達成している。
さらに,後処理ハイパーパラメータの選択には,前方探索と後方探索という2つのアプローチを検討する。
イベントレベルとフレームレベルのハイパーパラメータを別々に最適化することにより、これらの2つのアプローチは経験的手法を用いて選択されたパラメータよりも大幅に性能が向上する。
完全なWhaleVAD-BPNシステムは0.475のクロスバリデーションF1スコアを達成する。
関連論文リスト
- Exploring Spiking Neural Networks for Binary Classification in Multivariate Time Series at the Edge [0.9282545044546486]
多変量時系列のバイナリ分類を行うために、スパイキングニューラルネットワーク(SNN)を訓練するための一般的なフレームワークを提案する。
ガンマ線スペクトルデータにおける低信号-雑音比放射源の検出に応用する。
その結果、49個の神経細胞と66個のシナプスを持つSNNは、51.8%の真の正の速度(TPR)を1/hrの誤報率で達成した。
マイクロカスピアンニューロモルフィックプラットフォーム上のハードウェア展開は、2mWの消費電力と20.2msのレイテンシを示す。
論文 参考訳(メタデータ) (2025-10-23T20:52:11Z) - AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - PETDet: Proposal Enhancement for Two-Stage Fine-Grained Object Detection [26.843891792018447]
PETDet (Proposal Enhancement for Two-stage fine-fine object detection) は, 2段階FGOD法において, サブタスクをよりよく扱うために提案される。
動的ラベル割り当てと注意に基づく分解により, アンカーフリー品質指向提案ネットワーク(QOPN)を提案する。
A novel Adaptive Recognition Loss (ARL)は、R-CNNの責任者が高品質な提案に焦点を合わせるためのガイダンスを提供する。
論文 参考訳(メタデータ) (2023-12-16T18:04:56Z) - TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization [54.41494515178297]
話者ダイアリゼーションを単一ラベル分類問題として再検討する。
話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。
オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-03-08T05:05:26Z) - Mitigating Closed-model Adversarial Examples with Bayesian Neural
Modeling for Enhanced End-to-End Speech Recognition [18.83748866242237]
厳密で実証的な「閉モデル対逆ロバスト性」の設定に焦点を当てる。
本稿では,ベイズニューラルネットワーク(BNN)を用いた対角検出器を提案する。
検出率を+2.77から+5.42%(相対+3.03から+6.26%)に改善し、単語エラー率をLibriSpeechデータセットで5.02から7.47%に下げる。
論文 参考訳(メタデータ) (2022-02-17T09:17:58Z) - Towards Improving Selective Prediction Ability of NLP Systems [24.774450633678125]
本稿では,予測信頼度とインスタンスの難易度を用いてモデルを校正することにより,モデルの確率推定を改善する手法を提案する。
In-Domain (IID) と Out-of-Domain (OOD) の2つの設定で評価を行う。
論文 参考訳(メタデータ) (2020-08-21T08:46:36Z) - Corner Proposal Network for Anchor-free, Two-stage Object Detection [174.59360147041673]
オブジェクト検出の目標は、画像内のオブジェクトのクラスと位置を決定することである。
本稿では,多数のオブジェクト提案を抽出する新しいアンカーフリー2段階フレームワークを提案する。
この2つの段階が,リコールと精度の向上に有効な解であることを示す。
論文 参考訳(メタデータ) (2020-07-27T19:04:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。