論文の概要: Exploring Meta Information for Audio-based Zero-shot Bird Classification
- arxiv url: http://arxiv.org/abs/2309.08398v2
- Date: Tue, 11 Jun 2024 17:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 01:08:37.179313
- Title: Exploring Meta Information for Audio-based Zero-shot Bird Classification
- Title(参考訳): 音声によるゼロショットバード分類のためのメタ情報探索
- Authors: Alexander Gebhard, Andreas Triantafyllopoulos, Teresa Bez, Lukas Christ, Alexander Kathan, Björn W. Schuller,
- Abstract要約: 本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
- 参考スコア(独自算出の注目度): 113.17261694996051
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Advances in passive acoustic monitoring and machine learning have led to the procurement of vast datasets for computational bioacoustic research. Nevertheless, data scarcity is still an issue for rare and underrepresented species. This study investigates how meta-information can improve zero-shot audio classification, utilising bird species as an example case study due to the availability of rich and diverse meta-data. We investigate three different sources of metadata: textual bird sound descriptions encoded via (S)BERT, functional traits (AVONET), and bird life-history (BLH) characteristics. As audio features, we extract audio spectrogram transformer (AST) embeddings and project them to the dimension of the auxiliary information by adopting a single linear layer. Then, we employ the dot product as compatibility function and a standard zero-shot learning ranking hinge loss to determine the correct class. The best results are achieved by concatenating the AVONET and BLH features attaining a mean unweighted F1-score of .233 over five different test sets with 8 to 10 classes.
- Abstract(参考訳): 受動的音響モニタリングと機械学習の進歩は、計算バイオ音響研究のための膨大なデータセットの調達につながった。
それでも、データ不足は希少で表現不足の種にとって依然として問題である。
本研究では,多種多様なメタデータが利用可能であることから,鳥種を事例として,メタ情報を用いてゼロショット音声分類を改善する方法について検討した。
本稿では, (S)BERTで符号化されたテキストによる鳥の音響記述, 機能的特徴 (AVONET) , 鳥の生活史 (BLH) の特徴の3つの異なるメタデータ源について検討する。
音声の特徴として、オーディオ・スペクトログラム・トランスフォーマー(AST)の埋め込みを抽出し、単一の線形層を用いて補助情報の次元に投影する。
次に,ドット積を互換性関数とし,標準ゼロショット学習ランキングヒンジ損失を用いて正しいクラスを決定する。
AVONETとBLHの機能は8から10のクラスを持つ5つのテストセットに対して平均未重み付きF1スコアが.233である。
関連論文リスト
- Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature [1.1455937444848385]
本稿では,音声病理診断における現代的実践の徹底的な研究から得られた,ロバストな特徴セットを提案する。
K-Means Synthetic Minority Over-Sampling Technique(K-Means Synthetic Over-Sampling Technique)アルゴリズムを用いて,Sarbr"ucken Voice Database(SVD)のデータを含むこの機能セットを組み合わせる。
提案手法は,音声病理診断における非重み付き平均リコールによって測定された最先端の性能を達成している。
論文 参考訳(メタデータ) (2024-10-14T14:17:52Z) - Advanced Framework for Animal Sound Classification With Features Optimization [35.2832738406242]
一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。
提案手法は,精度,リコール,精度を25%以上向上させる。
論文 参考訳(メタデータ) (2024-07-03T18:33:47Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Improving Primate Sounds Classification using Binary Presorting for Deep
Learning [6.044912425856236]
本稿では,MELスペクトル表現のサブセグメンテーションを初めてリラベルする一般化アプローチを提案する。
バイナリプリソートと分類の両方において、畳み込みニューラルネットワーク(CNN)と様々なデータ拡張技術を利用する。
本研究は,異なる霊長類種の音の分類を課題とする,挑戦的なTextitComparE 2021データセットについて,本手法の結果を紹介する。
論文 参考訳(メタデータ) (2023-06-28T09:35:09Z) - Feature-Rich Audio Model Inversion for Data-Free Knowledge Distillation
Towards General Sound Classification [23.35582432472955]
一般音響分類タスクのためのデータフリー知識蒸留フレームワークである機能リッチオーディオモデルインバージョン(FRAMI)を提案する。
Urbansound8k、ESC-50、AudioMNISTデータセットの実験結果は、FRAMIが機能豊富なサンプルを生成することを実証している。
論文 参考訳(メタデータ) (2023-03-14T06:04:19Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Searching for Robustness: Loss Learning for Noisy Classification Tasks [81.70914107917551]
テイラーを用いたフレキシブルな損失関数群をパラメタライズし、この空間におけるノイズロスの探索に進化的戦略を適用する。
その結果、ホワイトボックスの損失は、さまざまな下流タスクで効果的なノイズロバスト学習を可能にするシンプルで高速な「プラグアンドプレイ」モジュールを提供します。
論文 参考訳(メタデータ) (2021-02-27T15:27:22Z) - An Ensemble of Convolutional Neural Networks for Audio Classification [9.174145063580882]
音声分類のためのCNNのアンサンブルを提示し、3つの無料で利用可能な音声分類データセットで検証する。
我々の知る限りでは、これは音声分類のためのCNNのアンサンブルを調査する最も広範な研究である。
論文 参考訳(メタデータ) (2020-07-15T19:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。