論文の概要: animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics
- arxiv url: http://arxiv.org/abs/2406.01253v2
- Date: Fri, 26 Jul 2024 07:39:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 17:42:34.333799
- Title: animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics
- Title(参考訳): animal2vecとMeerKAT: 希少な生オーディオ入力のための自己教師型トランスフォーマーとバイオ音響学のための大規模参照データセット
- Authors: Julian C. Schäfer-Zimmermann, Vlad Demartsev, Baptiste Averly, Kiran Dhanjal-Adams, Mathieu Duteil, Gabriella Gall, Marius Faiß, Lily Johnson-Ulrich, Dan Stowell, Marta B. Manser, Marie A. Roch, Ariana Strandburg-Peshkin,
- Abstract要約: animal2vecは、未ラベルの音声から学習し、ラベル付きデータでその理解を洗練する、解釈可能な大きなトランスフォーマーモデルである。
Meerkat Audio Transcriptsは、ヒト以外の地上哺乳動物に関する最大のラベル付きデータセットである。
我々のモデルは,MeerKATの既存の手法と利用可能な NIPS4Bplus Birdong データセットより優れている。
- 参考スコア(独自算出の注目度): 2.1019401515721583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bioacoustic research, vital for understanding animal behavior, conservation, and ecology, faces a monumental challenge: analyzing vast datasets where animal vocalizations are rare. While deep learning techniques are becoming standard, adapting them to bioacoustics remains difficult. We address this with animal2vec, an interpretable large transformer model, and a self-supervised training scheme tailored for sparse and unbalanced bioacoustic data. It learns from unlabeled audio and then refines its understanding with labeled data. Furthermore, we introduce and publicly release MeerKAT: Meerkat Kalahari Audio Transcripts, a dataset of meerkat (Suricata suricatta) vocalizations with millisecond-resolution annotations, the largest labeled dataset on non-human terrestrial mammals currently available. Our model outperforms existing methods on MeerKAT and the publicly available NIPS4Bplus birdsong dataset. Moreover, animal2vec performs well even with limited labeled data (few-shot learning). animal2vec and MeerKAT provide a new reference point for bioacoustic research, enabling scientists to analyze large amounts of data even with scarce ground truth information.
- Abstract(参考訳): 動物の行動、保存、生態を理解するのに不可欠なバイオ音響研究は、動物の声化が稀な膨大なデータセットを分析するという重要な課題に直面している。
ディープラーニング技術は標準になりつつあるが、生体音響学に適応することは依然として難しい。
そこで本研究では,この手法を,解釈可能な大規模変圧器モデルであるAnimal2vecと,スパースおよびアンバランスな生体音響データに適した自己教師型トレーニングスキームを用いて検討する。
ラベルなしの音声から学習し、ラベル付きデータで理解を深める。
さらに,我々はMeerKAT: Meerkat Kalahari Audio Transcriptsを紹介し,公開している。
我々のモデルは,MeerKAT と NIPS4Bplus Birdong データセットの既存手法よりも優れている。
さらに、Animal2vecはラベル付きデータ(フェーショット学習)でも良好に機能する。
animal2vecとMeerKATは、バイオ音響研究の新しい基準ポイントを提供する。
関連論文リスト
- Multi Modal Information Fusion of Acoustic and Linguistic Data for Decoding Dairy Cow Vocalizations in Animal Welfare Assessment [0.0]
本研究では,マルチモーダルデータ融合技術を用いて乳牛の接触呼をデコードすることを目的とする。
本研究では,自然言語処理モデルを用いて,牛の発声音声の音声記録を書式に転写する。
発声は、苦痛や覚醒に関連する高頻度通話と、満足感や落ち着きに関連する低頻度通話に分類した。
論文 参考訳(メタデータ) (2024-11-01T09:48:30Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - OmniMotionGPT: Animal Motion Generation with Limited Data [70.35662376853163]
最初のテキストアニマルモーションデータセットであるAnimalML3Dを紹介した。
我々は,動物データに基づくヒトの動き生成ベースラインのトレーニング結果よりも定量的かつ質的に,高い多様性と忠実さで動物の動きを生成することができる。
論文 参考訳(メタデータ) (2023-11-30T07:14:00Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Transferable Models for Bioacoustics with Human Language Supervision [0.0]
BioLingualは、対照的な言語-オーディオ事前学習に基づくバイオ音響学の新しいモデルである。
分類群にまたがる1000種以上の呼び出しを識別し、完全なバイオ音響タスクをゼロショットで実行し、自然のテキストクエリから動物の発声記録を検索する。
論文 参考訳(メタデータ) (2023-08-09T14:22:18Z) - Classification of animal sounds in a hyperdiverse rainforest using
Convolutional Neural Networks [0.0]
受動的に記録された音場から機械学習アプローチによる自動種検出は有望な手法である。
本研究では,ボルネオの熱帯林の音環境と,移動学習による畳み込みニューラルネットワークモデル(CNN)を用いた。
以上の結果から,トランスファー学習とデータ拡張は,多くの稀な種を持つ小さなサウンドスケーププロジェクトにおいても,CNNを用いて声の分類が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-29T21:34:57Z) - Cetacean Translation Initiative: a roadmap to deciphering the
communication of sperm whales [97.41394631426678]
最近の研究では、非ヒト種における音響コミュニケーションを分析するための機械学習ツールの約束を示した。
マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素について概説する。
開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性が高い。
論文 参考訳(メタデータ) (2021-04-17T18:39:22Z) - AcinoSet: A 3D Pose Estimation Dataset and Baseline Models for Cheetahs
in the Wild [51.35013619649463]
我々はAcinoSetと呼ばれる野生のフリーランニングチーターの広範なデータセットを提示する。
データセットには、119,490フレームのマルチビュー同期高速ビデオ映像、カメラキャリブレーションファイル、7,588フレームが含まれている。
また、結果の3D軌道、人間チェックされた3D地上真実、およびデータを検査するインタラクティブツールも提供される。
論文 参考訳(メタデータ) (2021-03-24T15:54:11Z) - Modelling Animal Biodiversity Using Acoustic Monitoring and Deep
Learning [0.0]
本稿では,機械学習の最先端技術を用いて,時系列音声信号から特徴を自動的に抽出する手法について概説する。
得られた鳥の歌はメル周波数ケプストラム(MFC)を用いて処理され、後に多層パーセプトロン(MLP)を用いて分類される特徴を抽出する。
提案手法は感度0.74,特異度0.92,精度0.74で有望な結果を得た。
論文 参考訳(メタデータ) (2021-03-12T13:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。