論文の概要: animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics
- arxiv url: http://arxiv.org/abs/2406.01253v1
- Date: Mon, 3 Jun 2024 12:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:09:07.037843
- Title: animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics
- Title(参考訳): animal2vecとMeerKAT: 希少な生オーディオ入力のための自己教師型トランスフォーマーとバイオ音響学のための大規模参照データセット
- Authors: Julian C. Schäfer-Zimmermann, Vlad Demartsev, Baptiste Averly, Kiran Dhanjal-Adams, Mathieu Duteil, Gabriella Gall, Marius Faiß, Lily Johnson-Ulrich, Dan Stowell, Marta B. Manser, Marie A. Roch, Ariana Strandburg-Peshkin,
- Abstract要約: 本稿では, スパースおよびアンバランスな生体音響データに適した, 完全に解釈可能なトランスフォーマーモデルと自己教師型トレーニングスキームである animal2vec フレームワークを提案する。
MeerKAT: Meerkat Kalahari Audio Transcriptsは、バイオブロガーが収集したオーディオを含む大規模なデータセットで、1068hを超える自由配置ミーアカートを公開しています。
両データセットの最新の結果について報告し,ラベル付きトレーニングデータのAnimal2vecの少数ショット機能の評価を行った。
- 参考スコア(独自算出の注目度): 2.1019401515721583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bioacoustic research provides invaluable insights into the behavior, ecology, and conservation of animals. Most bioacoustic datasets consist of long recordings where events of interest, such as vocalizations, are exceedingly rare. Analyzing these datasets poses a monumental challenge to researchers, where deep learning techniques have emerged as a standard method. Their adaptation remains challenging, focusing on models conceived for computer vision, where the audio waveforms are engineered into spectrographic representations for training and inference. We improve the current state of deep learning in bioacoustics in two ways: First, we present the animal2vec framework: a fully interpretable transformer model and self-supervised training scheme tailored for sparse and unbalanced bioacoustic data. Second, we openly publish MeerKAT: Meerkat Kalahari Audio Transcripts, a large-scale dataset containing audio collected via biologgers deployed on free-ranging meerkats with a length of over 1068h, of which 184h have twelve time-resolved vocalization-type classes, each with ms-resolution, making it the largest publicly-available labeled dataset on terrestrial mammals. Further, we benchmark animal2vec against the NIPS4Bplus birdsong dataset. We report new state-of-the-art results on both datasets and evaluate the few-shot capabilities of animal2vec of labeled training data. Finally, we perform ablation studies to highlight the differences between our architecture and a vanilla transformer baseline for human-produced sounds. animal2vec allows researchers to classify massive amounts of sparse bioacoustic data even with little ground truth information available. In addition, the MeerKAT dataset is the first large-scale, millisecond-resolution corpus for benchmarking bioacoustic models in the pretrain/finetune paradigm. We believe this sets the stage for a new reference point for bioacoustics.
- Abstract(参考訳): 生物音響学的研究は、動物の行動、生態、保存に関する貴重な洞察を提供する。
ほとんどのバイオ音響データセットは、声化のような興味のある出来事が極めて稀な長い記録で構成されている。
これらのデータセットを分析することは、研究者にとって重要な課題であり、ディープラーニング技術が標準的手法として登場した。
彼らの適応は依然として困難であり、コンピュータビジョンのために考案されたモデルに焦点を合わせ、そこではオーディオ波形を訓練と推論のための分光表現にエンジニアリングする。
本稿では,生物音響学における深層学習の現状を2つの方法で改善する。まず,スパースおよびアンバランスな生体音響データに適した,完全に解釈可能なトランスフォーマーモデルと自己教師型トレーニングスキームであるAnimal2vecフレームワークを提示する。
第二に、MeerKAT: Meerkat Kalahari Audio Transcriptsは、1068h以上の長さのメエルカット上に展開されたバイオログによって収集されたオーディオを含む大規模データセットである。
さらに NIPS4Bplus Birdong データセットに対して animal2vec をベンチマークした。
両データセットの最新の結果について報告し,ラベル付きトレーニングデータのAnimal2vecの少数ショット機能の評価を行った。
最後に,人間の生成音に対するバニラ変圧器ベースラインとアーキテクチャの違いを明らかにするためのアブレーション研究を行った。
animal2vecは 大量の バイオ音響データを分類できる
さらに、MeerKATデータセットは、プリトレイン/ファイントゥンパラダイムでバイオ音響モデルのベンチマークを行うための最初の大規模ミリ秒分解能コーパスである。
これはバイオ音響学の新しい基準点の舞台となると信じている。
関連論文リスト
- Advanced Framework for Animal Sound Classification With Features Optimization [35.2832738406242]
一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。
提案手法は,精度,リコール,精度を25%以上向上させる。
論文 参考訳(メタデータ) (2024-07-03T18:33:47Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Active Bird2Vec: Towards End-to-End Bird Sound Monitoring with
Transformers [2.404305970432934]
自己教師付き(SSL)と深層能動学習(DAL)を組み合わせた鳥音モニタリングにおけるエンドツーエンド学習へのシフトを提案する。
我々は,従来のスペクトログラム変換をバイパスし,直接生音声処理を実現することを目的としている。
論文 参考訳(メタデータ) (2023-08-14T13:06:10Z) - Transferable Models for Bioacoustics with Human Language Supervision [0.0]
BioLingualは、対照的な言語-オーディオ事前学習に基づくバイオ音響学の新しいモデルである。
分類群にまたがる1000種以上の呼び出しを識別し、完全なバイオ音響タスクをゼロショットで実行し、自然のテキストクエリから動物の発声記録を検索する。
論文 参考訳(メタデータ) (2023-08-09T14:22:18Z) - Improving Primate Sounds Classification using Binary Presorting for Deep
Learning [6.044912425856236]
本稿では,MELスペクトル表現のサブセグメンテーションを初めてリラベルする一般化アプローチを提案する。
バイナリプリソートと分類の両方において、畳み込みニューラルネットワーク(CNN)と様々なデータ拡張技術を利用する。
本研究は,異なる霊長類種の音の分類を課題とする,挑戦的なTextitComparE 2021データセットについて,本手法の結果を紹介する。
論文 参考訳(メタデータ) (2023-06-28T09:35:09Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Cetacean Translation Initiative: a roadmap to deciphering the
communication of sperm whales [97.41394631426678]
最近の研究では、非ヒト種における音響コミュニケーションを分析するための機械学習ツールの約束を示した。
マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素について概説する。
開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性が高い。
論文 参考訳(メタデータ) (2021-04-17T18:39:22Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - Modelling Animal Biodiversity Using Acoustic Monitoring and Deep
Learning [0.0]
本稿では,機械学習の最先端技術を用いて,時系列音声信号から特徴を自動的に抽出する手法について概説する。
得られた鳥の歌はメル周波数ケプストラム(MFC)を用いて処理され、後に多層パーセプトロン(MLP)を用いて分類される特徴を抽出する。
提案手法は感度0.74,特異度0.92,精度0.74で有望な結果を得た。
論文 参考訳(メタデータ) (2021-03-12T13:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。