Fugu-MT 論文翻訳(概要): Exploring Meta Information for Audio-based Zero-shot Bird Classification

論文の概要: Exploring Meta Information for Audio-based Zero-shot Bird Classification

arxiv url: http://arxiv.org/abs/2309.08398v1
Date: Fri, 15 Sep 2023 13:50:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-18 14:30:57.360490
Title: Exploring Meta Information for Audio-based Zero-shot Bird Classification
Title（参考訳）: ゼロショット鳥分類のためのメタ情報の探索
Authors: Alexander Gebhard, Andreas Triantafyllopoulos, Teresa Bez, Lukas Christ, Alexander Kathan, Bj\"orn W. Schuller
Abstract要約: 本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
参考スコア（独自算出の注目度）: 88.71911948909738
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Advances in passive acoustic monitoring and machine learning have led to the procurement of vast datasets for computational bioacoustic research. Nevertheless, data scarcity is still an issue for rare and underrepresented species. This study investigates how meta-information can improve zero-shot audio classification, utilising bird species as an example case study due to the availability of rich and diverse metadata. We investigate three different sources of metadata: textual bird sound descriptions encoded via (S)BERT, functional traits (AVONET), and bird life-history (BLH) characteristics. As audio features, we extract audio spectrogram transformer (AST) embeddings and project them to the dimension of the auxiliary information by adopting a single linear layer. Then, we employ the dot product as compatibility function and a standard zero-shot learning ranking hinge loss to determine the correct class. The best results are achieved by concatenating the AVONET and BLH features attaining a mean F1-score of .233 over five different test sets with 8 to 10 classes.
Abstract（参考訳）: 受動的音響モニタリングと機械学習の進歩は、計算バイオ音響研究のための膨大なデータセットの調達につながった。それでも、データ不足は希少で表現不足の種にとって依然として問題である。本研究では,多種多様なメタデータが利用可能であることから,鳥種を事例として活用し,メタ情報によるゼロショット音声分類の改善について検討する。本研究では,(s)bertでエンコードされた鳥の音声記述,機能的特徴(avonet),鳥の生涯史(blh)特性の3種類のメタデータについて検討した。音声の特徴として,音声スペクトログラム変換器(ast)埋め込みを抽出し,単一の線形層を採用することで補助情報の次元に投影する。次に,ドット積を互換性関数とし,標準ゼロショット学習ランキングヒンジ損失を用いて正しいクラスを決定する。最良の結果は、8から10のクラスを持つ5つの異なるテストセットで平均.233のf1-scoreを達成するために、avonetとblhの機能を結合することで達成される。

関連論文リスト

Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文参考訳（メタデータ） (2026-01-29T12:16:19Z)
Can Masked Autoencoders Also Listen to Birds? [2.430300340530418]
Masked Autoencoders (MAEs) は、リッチな意味表現を学習することで、音声分類において競合する結果を示した。汎用モデルは、きめ細かいオーディオドメインに直接適用しても、うまく一般化できない。この研究は、このドメインギャップを埋めるには、ドメイン固有の事前トレーニングデータ以上のものが必要であることを実証している。
論文参考訳（メタデータ） (2025-04-17T12:13:25Z)
Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature [1.1455937444848385]
本稿では,音声病理診断における現代的実践の徹底的な研究から得られた,ロバストな特徴セットを提案する。 K-Means Synthetic Minority Over-Sampling Technique(K-Means Synthetic Over-Sampling Technique)アルゴリズムを用いて,Sarbr"ucken Voice Database(SVD)のデータを含むこの機能セットを組み合わせる。提案手法は,音声病理診断における非重み付き平均リコールによって測定された最先端の性能を達成している。
論文参考訳（メタデータ） (2024-10-14T14:17:52Z)
Advanced Framework for Animal Sound Classification With Features Optimization [35.2832738406242]
一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。提案手法は,精度,リコール,精度を25%以上向上させる。
論文参考訳（メタデータ） (2024-07-03T18:33:47Z)
AudioProtoPNet: An interpretable deep learning model for bird sound classification [1.49199020343864]
本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。これは本質的に解釈可能なモデルであり、埋め込みを抽出するためにConvNeXtのバックボーンを使用する。このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
論文参考訳（メタデータ） (2024-04-16T09:37:41Z)
BirdSet: A Large-Scale Dataset for Audio Classification in Avian Bioacoustics [2.2399415927517414]
BirdSetは、鳥のバイオ音響に焦点を当てたオーディオ分類のための大規模なベンチマークデータセットである。我々は,3つの異なる学習シナリオにまたがる多ラベル分類において,よく知られた6つのDLモデルをベンチマークした。私たちはHugging Faceにデータセットをホストし、簡単にアクセスできるようにしています。
論文参考訳（メタデータ） (2024-03-15T15:10:40Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
Improving Primate Sounds Classification using Binary Presorting for Deep Learning [6.044912425856236]
本稿では,MELスペクトル表現のサブセグメンテーションを初めてリラベルする一般化アプローチを提案する。バイナリプリソートと分類の両方において、畳み込みニューラルネットワーク(CNN)と様々なデータ拡張技術を利用する。本研究は,異なる霊長類種の音の分類を課題とする,挑戦的なTextitComparE 2021データセットについて,本手法の結果を紹介する。
論文参考訳（メタデータ） (2023-06-28T09:35:09Z)
Feature-Rich Audio Model Inversion for Data-Free Knowledge Distillation Towards General Sound Classification [23.35582432472955]
一般音響分類タスクのためのデータフリー知識蒸留フレームワークである機能リッチオーディオモデルインバージョン(FRAMI)を提案する。 Urbansound8k、ESC-50、AudioMNISTデータセットの実験結果は、FRAMIが機能豊富なサンプルを生成することを実証している。
論文参考訳（メタデータ） (2023-03-14T06:04:19Z)
Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文参考訳（メタデータ） (2022-08-05T10:39:37Z)
Low-complexity deep learning frameworks for acoustic scene classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。 DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文参考訳（メタデータ） (2022-06-13T11:41:39Z)
Robust Meta-learning with Sampling Noise and Label Noise via Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文参考訳（メタデータ） (2022-06-04T08:48:02Z)
Searching for Robustness: Loss Learning for Noisy Classification Tasks [81.70914107917551]
テイラーを用いたフレキシブルな損失関数群をパラメタライズし、この空間におけるノイズロスの探索に進化的戦略を適用する。その結果、ホワイトボックスの損失は、さまざまな下流タスクで効果的なノイズロバスト学習を可能にするシンプルで高速な「プラグアンドプレイ」モジュールを提供します。
論文参考訳（メタデータ） (2021-02-27T15:27:22Z)
An Ensemble of Convolutional Neural Networks for Audio Classification [9.174145063580882]
音声分類のためのCNNのアンサンブルを提示し、3つの無料で利用可能な音声分類データセットで検証する。我々の知る限りでは、これは音声分類のためのCNNのアンサンブルを調査する最も広範な研究である。
論文参考訳（メタデータ） (2020-07-15T19:41:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。