論文の概要: Synthetic data enables context-aware bioacoustic sound event detection
- arxiv url: http://arxiv.org/abs/2503.00296v2
- Date: Fri, 05 Sep 2025 21:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:02.942036
- Title: Synthetic data enables context-aware bioacoustic sound event detection
- Title(参考訳): 環境に配慮した生体音響イベント検出を可能にする合成データ
- Authors: Benjamin Hoffman, David Robinson, Marius Miron, Vittorio Baglione, Daniela Canestrari, Damian Elias, Eva Trapote, Felix Effenberger, Maddie Cusimano, Masato Hagiwara, Olivier Pietquin,
- Abstract要約: 本研究では,文脈内学習能力を向上させる基礎モデル学習手法を提案する。
我々は、8.8万時間以上の強いラベル付き音声を生成し、クエリ・バイ・サンプル・トランスフォーマー・ベース・モデルを用いて、バイオアコースティック・サウンド・イベントの検出を行う。
トレーニングされたモデルをAPIを通じて利用可能にすることで、生態学者や生態学者にバイオ音響音響イベント検出のためのトレーニング不要のツールを提供する。
- 参考スコア(独自算出の注目度): 18.607850799822568
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a methodology for training foundation models that enhances their in-context learning capabilities within the domain of bioacoustic signal processing. We use synthetically generated training data, introducing a domain-randomization-based pipeline that constructs diverse acoustic scenes with temporally strong labels. We generate over 8.8 thousand hours of strongly-labeled audio and train a query-by-example, transformer-based model to perform few-shot bioacoustic sound event detection. Our second contribution is a public benchmark of 13 diverse few-shot bioacoustics tasks. Our model outperforms previously published methods, and improves relative to other training-free methods by $64\%$. We demonstrate that this is due to increase in model size and data scale, as well as algorithmic improvements. We make our trained model available via an API, to provide ecologists and ethologists with a training-free tool for bioacoustic sound event detection.
- Abstract(参考訳): 本稿では,生体音響信号処理分野におけるコンテキスト内学習能力を高める基礎モデルの訓練手法を提案する。
合成学習データを用いて、時間的に強いラベルを持つ多様な音響シーンを構成するドメインランダム化に基づくパイプラインを導入する。
我々は、8.8万時間以上の強いラベル付き音声を生成し、クエリ・バイ・サンプル・トランスフォーマー・ベース・モデルを用いて、バイオアコースティック・サウンド・イベントの検出を行う。
第2のコントリビューションは、13の多様なバイオ音響タスクの公開ベンチマークです。
我々のモデルは以前公表した手法より優れており、他のトレーニング不要な手法と比較して6,4\%$で改善されている。
これは、モデルのサイズとデータスケールの増大と、アルゴリズムによる改善によるものであることを実証する。
トレーニングされたモデルをAPIを通じて利用可能にすることで、生態学者や生態学者にバイオ音響音響イベント検出のためのトレーニング不要のツールを提供する。
関連論文リスト
- NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics [35.72581102737726]
NatureLM-audioはバイオ音響学に特化して設計された最初のオーディオ言語基盤モデルである。
トレーニングデータセットは、バイオアコースティック、スピーチ、音楽にまたがるテキストとオーディオのペアを慎重にキュレートしたものだ。
音楽や音声から生体音響への学習表現の伝達が成功し,本モデルは未知の分類群や課題への有望な一般化を示す。
論文 参考訳(メタデータ) (2024-11-11T18:01:45Z) - animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics [2.1019401515721583]
animal2vecは、未ラベルの音声から学習し、ラベル付きデータでその理解を洗練する、解釈可能な大きなトランスフォーマーモデルである。
Meerkat Audio Transcriptsは、ヒト以外の地上哺乳動物に関する最大のラベル付きデータセットである。
我々のモデルは,MeerKATの既存の手法と利用可能な NIPS4Bplus Birdong データセットより優れている。
論文 参考訳(メタデータ) (2024-06-03T12:11:01Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Transferable Models for Bioacoustics with Human Language Supervision [0.0]
BioLingualは、対照的な言語-オーディオ事前学習に基づくバイオ音響学の新しいモデルである。
分類群にまたがる1000種以上の呼び出しを識別し、完全なバイオ音響タスクをゼロショットで実行し、自然のテキストクエリから動物の発声記録を検索する。
論文 参考訳(メタデータ) (2023-08-09T14:22:18Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Self-supervised Graphs for Audio Representation Learning with Limited
Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。
我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。
我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文 参考訳(メタデータ) (2022-01-31T21:32:22Z) - Metric-based multimodal meta-learning for human movement identification
via footstep recognition [3.300376360949452]
マルチモーダル・フレームワークを導入した新しいメトリック・ベース・ラーニング・アプローチについて述べる。
我々は,全方位センサシステムから得られた低感度データから汎用表現を学習する。
本研究は,マルチセンサデータに対するメトリクスに基づくコントラスト学習手法を用いて,データ不足の影響を緩和する。
論文 参考訳(メタデータ) (2021-11-15T18:46:14Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。