Fugu-MT 論文翻訳(概要): Transferable Models for Bioacoustics with Human Language Supervision

論文の概要: Transferable Models for Bioacoustics with Human Language Supervision

arxiv url: http://arxiv.org/abs/2308.04978v1
Date: Wed, 9 Aug 2023 14:22:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-10 13:24:21.672948
Title: Transferable Models for Bioacoustics with Human Language Supervision
Title（参考訳）: 人間の言語を監督する生体音響の伝達モデル
Authors: David Robinson, Adelaide Robinson, Lily Akrapongpisak
Abstract要約: BioLingualは、対照的な言語-オーディオ事前学習に基づくバイオ音響学の新しいモデルである。分類群にまたがる1000種以上の呼び出しを識別し、完全なバイオ音響タスクをゼロショットで実行し、自然のテキストクエリから動物の発声記録を検索する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Passive acoustic monitoring offers a scalable, non-invasive method for tracking global biodiversity and anthropogenic impacts on species. Although deep learning has become a vital tool for processing this data, current models are inflexible, typically cover only a handful of species, and are limited by data scarcity. In this work, we propose BioLingual, a new model for bioacoustics based on contrastive language-audio pretraining. We first aggregate bioacoustic archives into a language-audio dataset, called AnimalSpeak, with over a million audio-caption pairs holding information on species, vocalization context, and animal behavior. After training on this dataset to connect language and audio representations, our model can identify over a thousand species' calls across taxa, complete bioacoustic tasks zero-shot, and retrieve animal vocalization recordings from natural text queries. When fine-tuned, BioLingual sets a new state-of-the-art on nine tasks in the Benchmark of Animal Sounds. Given its broad taxa coverage and ability to be flexibly queried in human language, we believe this model opens new paradigms in ecological monitoring and research, including free-text search on the world's acoustic monitoring archives. We open-source our models, dataset, and code.
Abstract（参考訳）: 受動的音響モニタリングは、グローバルな生物多様性と人類学的影響を追跡するスケーラブルで非侵襲的な方法を提供する。ディープラーニングはこのデータを処理するための重要なツールになっているが、現在のモデルは柔軟性がなく、典型的には少数の種しかカバーせず、データ不足によって制限されている。本研究では,生物音響学の新しいモデルであるbiolingualを提案する。まず、生物音響アーカイブをanimalspeakと呼ばれる言語音声データセットに集約し、100万以上のオーディオキャプチャペアが種、発声コンテキスト、動物の行動に関する情報を保持する。このデータセットを用いて言語と音声の表現を接続した後、我々のモデルは、分類群をまたいだ1000種以上の呼び出しを識別し、ゼロショットで完全なバイオ音響タスクを完了し、自然なテキストクエリから動物の発声記録を検索することができる。微調整されたとき、biolingualは動物の音のベンチマークで9つのタスクについて最新技術を設定する。幅広い分類範囲と柔軟に人間の言語で問合せできる能力を考えると、このモデルは、世界の音響監視アーカイブのフリーテキスト検索を含む、生態学的監視と研究の新しいパラダイムを開くと信じている。モデル、データセット、コードをオープンソースにしています。

関連論文リスト

The iNaturalist Sounds Dataset [60.157076990024606]
iNatSoundsは、5500種以上の音をキャプチャする23万のオーディオファイルのコレクションで、世界中で27,000人以上のレコーダーが貢献している。このデータセットは、鳥類、哺乳類、昆虫、虫類、両生類からの音を包含し、iNaturalistに提出された観察から得られたオーディオおよび種名を含む。我々は、次世代の公的なエンゲージメントアプリケーションを支えるこのデータに基づいて訓練されたモデルを構想し、大規模なオーディオコレクションの処理において生物学者、生態学者、土地利用管理者を支援する。
論文参考訳（メタデータ） (2025-05-31T02:07:37Z)
Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality [74.59049806800176]
このデモペーパーでは、Tevatronツールキットの重要な特徴、学界と産業の橋渡しについて取り上げている。強い多言語・多モーダルな有効性を実現するための密集型検索器について紹介する。私たちはOmniEmbedもリリースしています。私たちの知る限り、テキスト、画像ドキュメント、ビデオ、オーディオ検索を統一する最初の埋め込みモデルです。
論文参考訳（メタデータ） (2025-05-05T08:52:49Z)
Synthetic data enables context-aware bioacoustic sound event detection [18.158806322128527]
本研究では,文脈内学習能力を向上させる基礎モデル学習手法を提案する。我々は、8.8万時間以上の強いラベル付き音声を生成し、クエリ・バイ・サンプル・トランスフォーマー・ベース・モデルを用いて、バイオアコースティック・サウンド・イベントの検出を行う。トレーニングされたモデルをAPIを通じて利用可能にすることで、生態学者や生態学者にバイオ音響音響イベント検出のためのトレーニング不要のツールを提供する。
論文参考訳（メタデータ） (2025-03-01T02:03:22Z)
NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics [22.64185462738092]
NatureLM-audioはバイオ音響学に特化して設計された最初のオーディオ言語基盤モデルである。音楽や音声から生体音響への学習表現の伝達が成功し,本モデルは未知の分類群や課題への有望な一般化を示す。バイオアコースティックスの研究を進めるため、トレーニングやベンチマークデータを生成するためのコードや、モデルをトレーニングするためのコードもオープンソース化した。
論文参考訳（メタデータ） (2024-11-11T18:01:45Z)
animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics [2.1019401515721583]
animal2vecは、未ラベルの音声から学習し、ラベル付きデータでその理解を洗練する、解釈可能な大きなトランスフォーマーモデルである。 Meerkat Audio Transcriptsは、ヒト以外の地上哺乳動物に関する最大のラベル付きデータセットである。我々のモデルは,MeerKATの既存の手法と利用可能な NIPS4Bplus Birdong データセットより優れている。
論文参考訳（メタデータ） (2024-06-03T12:11:01Z)
Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。 RAFは密集した室内音響データを提供する最初のデータセットである。
論文参考訳（メタデータ） (2024-03-27T17:59:56Z)
Self-Supervised Learning for Few-Shot Bird Sound Classification [10.395255631261458]
音声における自己教師あり学習(SSL)は、様々な領域において大きな可能性を秘めている。本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。
論文参考訳（メタデータ） (2023-12-25T22:33:45Z)
Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文参考訳（メタデータ） (2023-09-15T13:50:16Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文参考訳（メタデータ） (2022-04-06T18:45:20Z)
Cetacean Translation Initiative: a roadmap to deciphering the communication of sperm whales [97.41394631426678]
最近の研究では、非ヒト種における音響コミュニケーションを分析するための機械学習ツールの約束を示した。マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素について概説する。開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性が高い。
論文参考訳（メタデータ） (2021-04-17T18:39:22Z)
Discriminative Singular Spectrum Classifier with Applications on Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文参考訳（メタデータ） (2021-03-18T11:01:21Z)
Modelling Animal Biodiversity Using Acoustic Monitoring and Deep Learning [0.0]
本稿では,機械学習の最先端技術を用いて,時系列音声信号から特徴を自動的に抽出する手法について概説する。得られた鳥の歌はメル周波数ケプストラム(MFC)を用いて処理され、後に多層パーセプトロン(MLP)を用いて分類される特徴を抽出する。提案手法は感度0.74,特異度0.92,精度0.74で有望な結果を得た。
論文参考訳（メタデータ） (2021-03-12T13:50:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。