論文の概要: No Free Lunch from Audio Pretraining in Bioacoustics: A Benchmark Study of Embeddings
- arxiv url: http://arxiv.org/abs/2508.10230v1
- Date: Wed, 13 Aug 2025 22:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.133049
- Title: No Free Lunch from Audio Pretraining in Bioacoustics: A Benchmark Study of Embeddings
- Title(参考訳): バイオアコースティックスにおけるオーディオ事前学習の不要さ:埋め込みのベンチマーク研究
- Authors: Chenggang Chen, Zhiyu Yang,
- Abstract要約: 微調整のないオーディオ事前学習(DL)モデルから埋め込みを抽出することは,タスクの生体音響的特徴を得るのに人気がある。
本研究は,学習した埋め込みの次元を削減し,クラスタリングにより評価することにより,同一タスクにおける11のDLモデルをベンチマークする。
その結果,(1)微調整を伴わない,(2)微調整を伴わない,(2)微調整を伴わない,(2)微調整を伴わない,(3)微調整を伴わない,(3)微調整を伴わない,(3)微調整を伴わないなど,他のモデルよりも優れている,という結果が得られた。
- 参考スコア(独自算出の注目度): 0.6061938153713551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bioacoustics, the study of animal sounds, offers a non-invasive method to monitor ecosystems. Extracting embeddings from audio-pretrained deep learning (DL) models without fine-tuning has become popular for obtaining bioacoustic features for tasks. However, a recent benchmark study reveals that while fine-tuned audio-pretrained VGG and transformer models achieve state-of-the-art performance in some tasks, they fail in others. This study benchmarks 11 DL models on the same tasks by reducing their learned embeddings' dimensionality and evaluating them through clustering. We found that audio-pretrained DL models 1) without fine-tuning even underperform fine-tuned AlexNet, 2) both with and without fine-tuning fail to separate the background from labeled sounds, but ResNet does, and 3) outperform other models when fewer background sounds are included during fine-tuning. This study underscores the necessity of fine-tuning audio-pretrained models and checking the embeddings after fine-tuning. Our codes are available: https://github.com/NeuroscienceAI/Audio\_Embeddings
- Abstract(参考訳): 動物の音を研究するバイオ音響学は、生態系を監視する非侵襲的な方法を提供している。
微調整のないオーディオ事前学習(DL)モデルから埋め込みを抽出することは,タスクの生体音響的特徴を得るのに人気がある。
しかし、最近のベンチマークでは、微調整されたオーディオ事前学習VGGとトランスフォーマーモデルが、いくつかのタスクで最先端のパフォーマンスを達成する一方で、他のタスクでは失敗することが明らかになっている。
本研究は,学習した埋め込みの次元を削減し,クラスタリングにより評価することにより,同一タスクにおける11のDLモデルをベンチマークする。
オーディオ事前学習型DLモデルについて検討した。
1. 微調整がなくても、微調整のAlexNetを過小評価する。
2) 微調整で背景をラベル付き音から切り離すことができないが、ResNetはそうする。
3)微調整中に背景音が少なくなると、他のモデルよりも優れる。
本研究は, 微調整音声事前学習モデルの必要性と, 微調整後の埋め込み検査の必要性を浮き彫りにした。
https://github.com/NeuroscienceAI/Audio\_Embeddings.com/Audio\_Embeddings
関連論文リスト
- Foundation Models for Bioacoustics -- a Comparative Review [0.9109149174920012]
本稿では, 生体音響基礎モデルについて, モデルアーキテクチャ, 事前学習計画, 訓練パラダイムなどの設計決定を徹底的に分析して検討する。
BEANSおよびBirdSetベンチマークから,分類タスクの選択基盤モデルを評価する。
総合的な実験分析の結果,BirdSetベンチマークでは,大規模鳥の鳴き声データに基づく自己指導による学習が最高の成績を収めていることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-02T09:15:16Z) - Pre-training with Synthetic Patterns for Audio [18.769951782213973]
本稿では,実際の音声データの代わりに合成パターンを用いた音声エンコーダの事前学習を提案する。
本フレームワークは,AudioSet-2Mで事前学習したモデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-10-01T08:52:35Z) - Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection [57.537583869961885]
自己教師型音声モデルは、偽音声検出において急速に発展している研究トピックである。
我々は、wav2vec2モデルにローランク適応(LoRA)を適用し、トレーニング済みモデルの重みを凍結し、トランスアーキテクチャの各層にトレーニング可能なランク分解行列を注入する。
317Mのトレーニングパラメータを含むwav2vec2モデルのAdamの微調整と比較して、LoRAはトレーニング可能なパラメータの数を198倍減らして同様の性能を実現した。
論文 参考訳(メタデータ) (2023-06-09T01:43:41Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [33.10311742703679]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。