論文の概要: Transferable Models for Bioacoustics with Human Language Supervision
- arxiv url: http://arxiv.org/abs/2308.04978v1
- Date: Wed, 9 Aug 2023 14:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 13:24:21.672948
- Title: Transferable Models for Bioacoustics with Human Language Supervision
- Title(参考訳): 人間の言語を監督する生体音響の伝達モデル
- Authors: David Robinson, Adelaide Robinson, Lily Akrapongpisak
- Abstract要約: BioLingualは、対照的な言語-オーディオ事前学習に基づくバイオ音響学の新しいモデルである。
分類群にまたがる1000種以上の呼び出しを識別し、完全なバイオ音響タスクをゼロショットで実行し、自然のテキストクエリから動物の発声記録を検索する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Passive acoustic monitoring offers a scalable, non-invasive method for
tracking global biodiversity and anthropogenic impacts on species. Although
deep learning has become a vital tool for processing this data, current models
are inflexible, typically cover only a handful of species, and are limited by
data scarcity. In this work, we propose BioLingual, a new model for
bioacoustics based on contrastive language-audio pretraining. We first
aggregate bioacoustic archives into a language-audio dataset, called
AnimalSpeak, with over a million audio-caption pairs holding information on
species, vocalization context, and animal behavior. After training on this
dataset to connect language and audio representations, our model can identify
over a thousand species' calls across taxa, complete bioacoustic tasks
zero-shot, and retrieve animal vocalization recordings from natural text
queries. When fine-tuned, BioLingual sets a new state-of-the-art on nine tasks
in the Benchmark of Animal Sounds. Given its broad taxa coverage and ability to
be flexibly queried in human language, we believe this model opens new
paradigms in ecological monitoring and research, including free-text search on
the world's acoustic monitoring archives. We open-source our models, dataset,
and code.
- Abstract(参考訳): 受動的音響モニタリングは、グローバルな生物多様性と人類学的影響を追跡するスケーラブルで非侵襲的な方法を提供する。
ディープラーニングはこのデータを処理するための重要なツールになっているが、現在のモデルは柔軟性がなく、典型的には少数の種しかカバーせず、データ不足によって制限されている。
本研究では,生物音響学の新しいモデルであるbiolingualを提案する。
まず、生物音響アーカイブをanimalspeakと呼ばれる言語音声データセットに集約し、100万以上のオーディオキャプチャペアが種、発声コンテキスト、動物の行動に関する情報を保持する。
このデータセットを用いて言語と音声の表現を接続した後、我々のモデルは、分類群をまたいだ1000種以上の呼び出しを識別し、ゼロショットで完全なバイオ音響タスクを完了し、自然なテキストクエリから動物の発声記録を検索することができる。
微調整されたとき、biolingualは動物の音のベンチマークで9つのタスクについて最新技術を設定する。
幅広い分類範囲と柔軟に人間の言語で問合せできる能力を考えると、このモデルは、世界の音響監視アーカイブのフリーテキスト検索を含む、生態学的監視と研究の新しいパラダイムを開くと信じている。
モデル、データセット、コードをオープンソースにしています。
関連論文リスト
- Self-Supervised Learning for Few-Shot Bird Sound Classification [10.395255631261458]
音声における自己教師あり学習(SSL)は、様々な領域において大きな可能性を秘めている。
本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。
論文 参考訳(メタデータ) (2023-12-25T22:33:45Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [88.71911948909738]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Classification of animal sounds in a hyperdiverse rainforest using
Convolutional Neural Networks [0.0]
受動的に記録された音場から機械学習アプローチによる自動種検出は有望な手法である。
本研究では,ボルネオの熱帯林の音環境と,移動学習による畳み込みニューラルネットワークモデル(CNN)を用いた。
以上の結果から,トランスファー学習とデータ拡張は,多くの稀な種を持つ小さなサウンドスケーププロジェクトにおいても,CNNを用いて声の分類が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-29T21:34:57Z) - Cetacean Translation Initiative: a roadmap to deciphering the
communication of sperm whales [97.41394631426678]
最近の研究では、非ヒト種における音響コミュニケーションを分析するための機械学習ツールの約束を示した。
マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素について概説する。
開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性が高い。
論文 参考訳(メタデータ) (2021-04-17T18:39:22Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - Modelling Animal Biodiversity Using Acoustic Monitoring and Deep
Learning [0.0]
本稿では,機械学習の最先端技術を用いて,時系列音声信号から特徴を自動的に抽出する手法について概説する。
得られた鳥の歌はメル周波数ケプストラム(MFC)を用いて処理され、後に多層パーセプトロン(MLP)を用いて分類される特徴を抽出する。
提案手法は感度0.74,特異度0.92,精度0.74で有望な結果を得た。
論文 参考訳(メタデータ) (2021-03-12T13:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。