論文の概要: animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics
- arxiv url: http://arxiv.org/abs/2406.01253v1
- Date: Mon, 3 Jun 2024 12:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:09:07.037843
- Title: animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics
- Title(参考訳): animal2vecとMeerKAT: 希少な生オーディオ入力のための自己教師型トランスフォーマーとバイオ音響学のための大規模参照データセット
- Authors: Julian C. Schäfer-Zimmermann, Vlad Demartsev, Baptiste Averly, Kiran Dhanjal-Adams, Mathieu Duteil, Gabriella Gall, Marius Faiß, Lily Johnson-Ulrich, Dan Stowell, Marta B. Manser, Marie A. Roch, Ariana Strandburg-Peshkin,
- Abstract要約: 本稿では, スパースおよびアンバランスな生体音響データに適した, 完全に解釈可能なトランスフォーマーモデルと自己教師型トレーニングスキームである animal2vec フレームワークを提案する。
MeerKAT: Meerkat Kalahari Audio Transcriptsは、バイオブロガーが収集したオーディオを含む大規模なデータセットで、1068hを超える自由配置ミーアカートを公開しています。
両データセットの最新の結果について報告し,ラベル付きトレーニングデータのAnimal2vecの少数ショット機能の評価を行った。
- 参考スコア(独自算出の注目度): 2.1019401515721583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bioacoustic research provides invaluable insights into the behavior, ecology, and conservation of animals. Most bioacoustic datasets consist of long recordings where events of interest, such as vocalizations, are exceedingly rare. Analyzing these datasets poses a monumental challenge to researchers, where deep learning techniques have emerged as a standard method. Their adaptation remains challenging, focusing on models conceived for computer vision, where the audio waveforms are engineered into spectrographic representations for training and inference. We improve the current state of deep learning in bioacoustics in two ways: First, we present the animal2vec framework: a fully interpretable transformer model and self-supervised training scheme tailored for sparse and unbalanced bioacoustic data. Second, we openly publish MeerKAT: Meerkat Kalahari Audio Transcripts, a large-scale dataset containing audio collected via biologgers deployed on free-ranging meerkats with a length of over 1068h, of which 184h have twelve time-resolved vocalization-type classes, each with ms-resolution, making it the largest publicly-available labeled dataset on terrestrial mammals. Further, we benchmark animal2vec against the NIPS4Bplus birdsong dataset. We report new state-of-the-art results on both datasets and evaluate the few-shot capabilities of animal2vec of labeled training data. Finally, we perform ablation studies to highlight the differences between our architecture and a vanilla transformer baseline for human-produced sounds. animal2vec allows researchers to classify massive amounts of sparse bioacoustic data even with little ground truth information available. In addition, the MeerKAT dataset is the first large-scale, millisecond-resolution corpus for benchmarking bioacoustic models in the pretrain/finetune paradigm. We believe this sets the stage for a new reference point for bioacoustics.
- Abstract(参考訳): 生物音響学的研究は、動物の行動、生態、保存に関する貴重な洞察を提供する。
ほとんどのバイオ音響データセットは、声化のような興味のある出来事が極めて稀な長い記録で構成されている。
これらのデータセットを分析することは、研究者にとって重要な課題であり、ディープラーニング技術が標準的手法として登場した。
彼らの適応は依然として困難であり、コンピュータビジョンのために考案されたモデルに焦点を合わせ、そこではオーディオ波形を訓練と推論のための分光表現にエンジニアリングする。
本稿では,生物音響学における深層学習の現状を2つの方法で改善する。まず,スパースおよびアンバランスな生体音響データに適した,完全に解釈可能なトランスフォーマーモデルと自己教師型トレーニングスキームであるAnimal2vecフレームワークを提示する。
第二に、MeerKAT: Meerkat Kalahari Audio Transcriptsは、1068h以上の長さのメエルカット上に展開されたバイオログによって収集されたオーディオを含む大規模データセットである。
さらに NIPS4Bplus Birdong データセットに対して animal2vec をベンチマークした。
両データセットの最新の結果について報告し,ラベル付きトレーニングデータのAnimal2vecの少数ショット機能の評価を行った。
最後に,人間の生成音に対するバニラ変圧器ベースラインとアーキテクチャの違いを明らかにするためのアブレーション研究を行った。
animal2vecは 大量の バイオ音響データを分類できる
さらに、MeerKATデータセットは、プリトレイン/ファイントゥンパラダイムでバイオ音響モデルのベンチマークを行うための最初の大規模ミリ秒分解能コーパスである。
これはバイオ音響学の新しい基準点の舞台となると信じている。
関連論文リスト
- Multi Modal Information Fusion of Acoustic and Linguistic Data for Decoding Dairy Cow Vocalizations in Animal Welfare Assessment [0.0]
本研究では,マルチモーダルデータ融合技術を用いて乳牛の接触呼をデコードすることを目的とする。
本研究では,自然言語処理モデルを用いて,牛の発声音声の音声記録を書式に転写する。
発声は、苦痛や覚醒に関連する高頻度通話と、満足感や落ち着きに関連する低頻度通話に分類した。
論文 参考訳(メタデータ) (2024-11-01T09:48:30Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - OmniMotionGPT: Animal Motion Generation with Limited Data [70.35662376853163]
最初のテキストアニマルモーションデータセットであるAnimalML3Dを紹介した。
我々は,動物データに基づくヒトの動き生成ベースラインのトレーニング結果よりも定量的かつ質的に,高い多様性と忠実さで動物の動きを生成することができる。
論文 参考訳(メタデータ) (2023-11-30T07:14:00Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Transferable Models for Bioacoustics with Human Language Supervision [0.0]
BioLingualは、対照的な言語-オーディオ事前学習に基づくバイオ音響学の新しいモデルである。
分類群にまたがる1000種以上の呼び出しを識別し、完全なバイオ音響タスクをゼロショットで実行し、自然のテキストクエリから動物の発声記録を検索する。
論文 参考訳(メタデータ) (2023-08-09T14:22:18Z) - Classification of animal sounds in a hyperdiverse rainforest using
Convolutional Neural Networks [0.0]
受動的に記録された音場から機械学習アプローチによる自動種検出は有望な手法である。
本研究では,ボルネオの熱帯林の音環境と,移動学習による畳み込みニューラルネットワークモデル(CNN)を用いた。
以上の結果から,トランスファー学習とデータ拡張は,多くの稀な種を持つ小さなサウンドスケーププロジェクトにおいても,CNNを用いて声の分類が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-29T21:34:57Z) - Cetacean Translation Initiative: a roadmap to deciphering the
communication of sperm whales [97.41394631426678]
最近の研究では、非ヒト種における音響コミュニケーションを分析するための機械学習ツールの約束を示した。
マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素について概説する。
開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性が高い。
論文 参考訳(メタデータ) (2021-04-17T18:39:22Z) - AcinoSet: A 3D Pose Estimation Dataset and Baseline Models for Cheetahs
in the Wild [51.35013619649463]
我々はAcinoSetと呼ばれる野生のフリーランニングチーターの広範なデータセットを提示する。
データセットには、119,490フレームのマルチビュー同期高速ビデオ映像、カメラキャリブレーションファイル、7,588フレームが含まれている。
また、結果の3D軌道、人間チェックされた3D地上真実、およびデータを検査するインタラクティブツールも提供される。
論文 参考訳(メタデータ) (2021-03-24T15:54:11Z) - Modelling Animal Biodiversity Using Acoustic Monitoring and Deep
Learning [0.0]
本稿では,機械学習の最先端技術を用いて,時系列音声信号から特徴を自動的に抽出する手法について概説する。
得られた鳥の歌はメル周波数ケプストラム(MFC)を用いて処理され、後に多層パーセプトロン(MLP)を用いて分類される特徴を抽出する。
提案手法は感度0.74,特異度0.92,精度0.74で有望な結果を得た。
論文 参考訳(メタデータ) (2021-03-12T13:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。