論文の概要: Weakly Supervised Multiple Instance Learning for Whale Call Detection and Localization in Long-Duration Passive Acoustic Monitoring
- arxiv url: http://arxiv.org/abs/2502.20838v1
- Date: Fri, 28 Feb 2025 08:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:59.131137
- Title: Weakly Supervised Multiple Instance Learning for Whale Call Detection and Localization in Long-Duration Passive Acoustic Monitoring
- Title(参考訳): 長周期パッシブ音響モニタリングにおけるWhaleコール検出と位置推定のための弱教師付きマルチインスタンス学習
- Authors: Ragib Amin Nihal, Benjamin Yen, Runwu Shi, Kazuhiro Nakadai,
- Abstract要約: DSMIL-LocNetは,袋レベルのラベルのみを用いて,クジラの呼検出と位置決めを行うフレームワークである。
我々のデュアルストリームモデルは2~30分間の音声セグメントを処理し、スペクトルと時間的特徴と注意に基づくインスタンス選択を利用する。
- 参考スコア(独自算出の注目度): 2.7418627495572134
- License:
- Abstract: Marine ecosystem monitoring via Passive Acoustic Monitoring (PAM) generates vast data, but deep learning often requires precise annotations and short segments. We introduce DSMIL-LocNet, a Multiple Instance Learning framework for whale call detection and localization using only bag-level labels. Our dual-stream model processes 2-30 minute audio segments, leveraging spectral and temporal features with attention-based instance selection. Tests on Antarctic whale data show longer contexts improve classification (F1: 0.8-0.9) while medium instances ensure localization precision (0.65-0.70). This suggests MIL can enhance scalable marine monitoring. Code: https://github.com/Ragib-Amin-Nihal/DSMIL-Loc
- Abstract(参考訳): Passive Acoustic Monitoring (PAM)による海洋生態系のモニタリングは膨大なデータを生成するが、ディープラーニングは正確なアノテーションと短いセグメントを必要とすることが多い。
DSMIL-LocNetは,袋レベルのラベルのみを用いて,クジラの呼検出と位置決めを行うマルチインスタンス学習フレームワークである。
我々のデュアルストリームモデルは2~30分間の音声セグメントを処理し、スペクトルと時間的特徴と注意に基づくインスタンス選択を利用する。
南極クジラのデータによるテストでは、より長い文脈で分類が改善され(F1:0.8-0.9)、中級の個体が位置決め精度(0.65-0.70)が保証される。
これは、MILがスケーラブルな海洋モニタリングを強化することを示唆している。
コード:https://github.com/Ragib-Amin-Nihal/DSMIL-Loc
関連論文リスト
- Frequency-domain MLPs are More Effective Learners in Time Series
Forecasting [67.60443290781988]
時系列予測は、金融、交通、エネルギー、医療など、さまざまな産業領域において重要な役割を果たしてきた。
最多ベースの予測手法は、ポイントワイドマッピングと情報のボトルネックに悩まされる。
本稿では、時系列予測のための周波数領域上に構築された、シンプルで効果的なアーキテクチャであるFreTSを提案する。
論文 参考訳(メタデータ) (2023-11-10T17:05:13Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Dynamic Spectrum Mixer for Visual Recognition [17.180863898764194]
動的スペクトルミキサー (DSM) という,コンテンツ適応型だが計算効率のよい構造を提案する。
DSMはコサイン変換を用いて周波数領域におけるトークンの相互作用を表す。
ログ線形複雑性で長期空間依存を学習することができる。
論文 参考訳(メタデータ) (2023-09-13T04:51:15Z) - Multi-Object Tracking by Iteratively Associating Detections with Uniform
Appearance for Trawl-Based Fishing Bycatch Monitoring [22.228127377617028]
漁業活動における漁獲監視の目的は、映像から魚の標的をリアルタイムで検出し、追跡し、分類することである。
本稿では,既存の観測中心追跡アルゴリズムに基づく新しいMOT手法を提案する。
本手法は,海洋魚種群およびMOT17種群において,一様外観の追跡目標の性能向上と最先端技術の向上を図っている。
論文 参考訳(メタデータ) (2023-04-10T18:55:10Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - Balanced Deep CCA for Bird Vocalization Detection [5.635374645175903]
マルチモーダルデータのための新しい自己教師付き学習手法を開発した。
同時に記録したマイクロホン(音)信号と加速度計(振動)信号との相関(隠れ)を学習する。
論文 参考訳(メタデータ) (2022-11-17T07:09:07Z) - DCASE 2021 Task 3: Spectrotemporally-aligned Features for Polyphonic
Sound Event Localization and Detection [16.18806719313959]
本稿では,信号パワーと音源方向の正確な時間周波数マッピングが可能な空間キュー拡張対数分光法(SALSA)を提案する。
この新機能で訓練されたディープラーニングベースのモデルでは,DCASEチャレンジのベースラインを大きなマージンで上回りました。
論文 参考訳(メタデータ) (2021-06-29T09:18:30Z) - Temporal Bilinear Encoding Network of Audio-Visual Features at Low
Sampling Rates [7.1273332508471725]
本稿では,映像分類における視聴覚情報の利用について,毎秒1フレームのサンプリングレートで検討する。
音声情報と視覚情報の両方を符号化するためのTBEN(temporal Bilinear Networks)を提案する。
論文 参考訳(メタデータ) (2020-12-18T14:59:34Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Overcoming Classifier Imbalance for Long-tail Object Detection with
Balanced Group Softmax [88.11979569564427]
本報告では, 長期分布前における最先端モデルの過小評価に関する最初の体系的解析を行う。
本稿では,グループワイドトレーニングを通じて検出フレームワーク内の分類器のバランスをとるための,新しいバランス付きグループソフトマックス(BAGS)モジュールを提案する。
非常に最近の長尾大語彙オブジェクト認識ベンチマークLVISの大規模な実験により,提案したBAGSは検出器の性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-06-18T10:24:26Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。