論文の概要: AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference
- arxiv url: http://arxiv.org/abs/2603.22053v1
- Date: Mon, 23 Mar 2026 14:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.73109
- Title: AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference
- Title(参考訳): AnimalCLAP: 分類学を意識した言語-種認識とトレート推論のための事前学習
- Authors: Risa Shinoda, Kaede Shiohara, Nakamasa Inoue, Hiroaki Santo, Fumio Okura,
- Abstract要約: 動物の声化は、特に森林のような複雑な環境において、野生生物の評価に重要な洞察を与える。
近年, 深層学習の進歩により, 発声からの自動種分類が可能となった。
階層的な生物学的情報を含む新しいデータセットとモデルからなる分類学対応言語オーディオフレームワークであるAnimalCLAPを紹介する。
- 参考スコア(独自算出の注目度): 39.07403450813524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animal vocalizations provide crucial insights for wildlife assessment, particularly in complex environments such as forests, aiding species identification and ecological monitoring. Recent advances in deep learning have enabled automatic species classification from their vocalizations. However, classifying species unseen during training remains challenging. To address this limitation, we introduce AnimalCLAP, a taxonomy-aware language-audio framework comprising a new dataset and model that incorporate hierarchical biological information. Specifically, our vocalization dataset consists of 4,225 hours of recordings covering 6,823 species, annotated with 22 ecological traits. The AnimalCLAP model is trained on this dataset to align audio and textual representations using taxonomic structures, improving the recognition of unseen species. We demonstrate that our proposed model effectively infers ecological and biological attributes of species directly from their vocalizations, achieving superior performance compared to CLAP. Our dataset, code, and models will be publicly available at https://dahlian00.github.io/AnimalCLAP_Page/.
- Abstract(参考訳): 動物の声化は、特に森林のような複雑な環境、種同定や生態モニタリングにおいて、野生生物の評価に重要な洞察を与える。
近年, 深層学習の進歩により, 発声からの自動種分類が可能となった。
しかし、訓練中に見つからない種を分類することは依然として困難である。
この制限に対処するために,階層的な生物学的情報を含む新しいデータセットとモデルを含む分類学対応言語オーディオフレームワークであるAnimalCLAPを紹介した。
具体的には,6,823種をカバーする4,225時間の録音からなり,22種の生態的特徴を付加した。
AnimalCLAPモデルは、このデータセットに基づいて、分類学的構造を用いて音声とテキストの表現を調整し、目に見えない種の認識を改善するよう訓練されている。
提案モデルでは, 声の発声から生物特性や生態特性を効果的に推定し, CLAPと比較して優れた性能を示す。
私たちのデータセット、コード、モデルはhttps://dahlian00.github.io/AnimalCLAP_Page/で公開されます。
関連論文リスト
- The iNaturalist Sounds Dataset [60.157076990024606]
iNatSoundsは、5500種以上の音をキャプチャする23万のオーディオファイルのコレクションで、世界中で27,000人以上のレコーダーが貢献している。
このデータセットは、鳥類、哺乳類、昆虫、虫類、両生類からの音を包含し、iNaturalistに提出された観察から得られたオーディオおよび種名を含む。
我々は、次世代の公的なエンゲージメントアプリケーションを支えるこのデータに基づいて訓練されたモデルを構想し、大規模なオーディオコレクションの処理において生物学者、生態学者、土地利用管理者を支援する。
論文 参考訳(メタデータ) (2025-05-31T02:07:37Z) - BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning [60.80381372245902]
生体視覚モデルでは,大規模コントラスト視覚言語学習により創発的行動が観察される。
我々は、異なる種を区別するために、TreeOfLife-200MでBioCLIP 2を訓練する。
得られたBioCLIP 2の埋め込み空間における創発的特性を同定する。
論文 参考訳(メタデータ) (2025-05-29T17:48:20Z) - NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics [35.72581102737726]
NatureLM-audioはバイオ音響学に特化して設計された最初のオーディオ言語基盤モデルである。
トレーニングデータセットは、バイオアコースティック、スピーチ、音楽にまたがるテキストとオーディオのペアを慎重にキュレートしたものだ。
音楽や音声から生体音響への学習表現の伝達が成功し,本モデルは未知の分類群や課題への有望な一般化を示す。
論文 参考訳(メタデータ) (2024-11-11T18:01:45Z) - Generalization in birdsong classification: impact of transfer learning methods and dataset characteristics [2.6740633963478095]
大規模な鳥音分類における伝達学習の有効性について検討する。
実験により, 微調整蒸留と知識蒸留の双方で高い性能が得られた。
動物音コミュニティにおけるより包括的なラベリングの実践を提唱する。
論文 参考訳(メタデータ) (2024-09-21T11:33:12Z) - animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics [2.1019401515721583]
animal2vecは、未ラベルの音声から学習し、ラベル付きデータでその理解を洗練する、解釈可能な大きなトランスフォーマーモデルである。
Meerkat Audio Transcriptsは、ヒト以外の地上哺乳動物に関する最大のラベル付きデータセットである。
我々のモデルは,MeerKATの既存の手法と利用可能な NIPS4Bplus Birdong データセットより優れている。
論文 参考訳(メタデータ) (2024-06-03T12:11:01Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - Transferable Models for Bioacoustics with Human Language Supervision [0.0]
BioLingualは、対照的な言語-オーディオ事前学習に基づくバイオ音響学の新しいモデルである。
分類群にまたがる1000種以上の呼び出しを識別し、完全なバイオ音響タスクをゼロショットで実行し、自然のテキストクエリから動物の発声記録を検索する。
論文 参考訳(メタデータ) (2023-08-09T14:22:18Z) - Cetacean Translation Initiative: a roadmap to deciphering the
communication of sperm whales [97.41394631426678]
最近の研究では、非ヒト種における音響コミュニケーションを分析するための機械学習ツールの約束を示した。
マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素について概説する。
開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性が高い。
論文 参考訳(メタデータ) (2021-04-17T18:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。