論文の概要: Robust detection of overlapping bioacoustic sound events
- arxiv url: http://arxiv.org/abs/2503.02389v1
- Date: Tue, 04 Mar 2025 08:26:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:13:10.573357
- Title: Robust detection of overlapping bioacoustic sound events
- Title(参考訳): 重なり合う生体音響事象のロバスト検出
- Authors: Louis Mahon, Benjamin Hoffman, Logan S James, Maddie Cusimano, Masato Hagiwara, Sarah C Woolley, Olivier Pietquin,
- Abstract要約: 本稿では,Voxaboxenという名前のオンセットに基づく検出手法を提案する。
時間ウィンドウごとに、Voxaboxenは発声開始時間と発声期間を予測している。
重なり合う発声を検出するための新しいデータセットをリリースする。
- 参考スコア(独自算出の注目度): 16.976684123806653
- License:
- Abstract: We propose a method for accurately detecting bioacoustic sound events that is robust to overlapping events, a common issue in domains such as ethology, ecology and conservation. While standard methods employ a frame-based, multi-label approach, we introduce an onset-based detection method which we name Voxaboxen. It takes inspiration from object detection methods in computer vision, but simultaneously takes advantage of recent advances in self-supervised audio encoders. For each time window, Voxaboxen predicts whether it contains the start of a vocalization and how long the vocalization is. It also does the same in reverse, predicting whether each window contains the end of a vocalization, and how long ago it started. The two resulting sets of bounding boxes are then fused using a graph-matching algorithm. We also release a new dataset designed to measure performance on detecting overlapping vocalizations. This consists of recordings of zebra finches annotated with temporally-strong labels and showing frequent overlaps. We test Voxaboxen on seven existing data sets and on our new data set. We compare Voxaboxen to natural baselines and existing sound event detection methods and demonstrate SotA results. Further experiments show that improvements are robust to frequent vocalization overlap.
- Abstract(参考訳): 本稿では, 重なり合う現象に頑健な生体音響現象を正確に検出する手法を提案する。
標準手法ではフレームベースのマルチラベル方式を採用しているが,Voxaboxenと呼ばれるオンセットベースの検出手法を導入する。
コンピュータビジョンにおける物体検出法からインスピレーションを得ているが、同時に自己監督型オーディオエンコーダの最近の進歩を生かしている。
時間ウィンドウごとに、Voxaboxenは発声開始時間と発声期間を予測している。
また、同じことを逆で行い、それぞれのウィンドウが発声の終端を含んでいるか、いつから始まったかを予測する。
得られた2つの境界ボックスは、グラフマッチングアルゴリズムを用いて融合される。
また,重なり合う発声を検出するための新しいデータセットもリリースした。
これは、時間的に強いラベルで注釈付けされたシマウマのフィンチの記録からなり、頻繁に重複していることを示す。
既存の7つのデータセットと新しいデータセットでVoxaboxenをテストする。
本稿では,Voxaboxenと自然ベースラインと既存の音響イベント検出手法を比較し,SotAの結果を実証する。
さらなる実験により、改善は頻繁な発声重なりに対して堅牢であることが示された。
関連論文リスト
- Cross-Validation Is All You Need: A Statistical Approach To Label Noise Estimation [0.6612255136183889]
マシンラーニングモデルは、ノイズラベルの存在下でトレーニングされた場合、パフォーマンスが低下する。
これは、生存予測のような医療タスクに特に問題となる。
本稿では,2つの新しいラベルノイズ検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-24T14:50:20Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - Automatic audiovisual synchronisation for ultrasound tongue imaging [35.60751372748571]
超音波と音声を同時に記録し、このデータを正しく利用するには、2つのモードを正しく同期させる必要がある。
同期化は特別なハードウェアを用いて記録時に達成されるが、このアプローチは実際に失敗し、ユーザビリティが制限される。
本稿では,データ収集後の超音波と音声の自動同期の問題に対処する。
自己教師型ニューラルネットワークによって駆動される自動同期に対する我々のアプローチについて述べる。
論文 参考訳(メタデータ) (2021-05-31T17:11:28Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Unsupervised Classification of Voiced Speech and Pitch Tracking Using
Forward-Backward Kalman Filtering [14.950964357181524]
3つのサブタスクを1つの手順に統合する新しいアルゴリズムを紹介します。
このアルゴリズムは、大量の背景雑音が存在する場合の事前録音音声に応用できる。
論文 参考訳(メタデータ) (2021-03-01T18:13:23Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。