Fugu-MT 論文翻訳(概要): From Birdsong to Rumbles: Classifying Elephant Calls with Out-of-Species Embeddings

論文の概要: From Birdsong to Rumbles: Classifying Elephant Calls with Out-of-Species Embeddings

arxiv url: http://arxiv.org/abs/2605.00225v1
Date: Thu, 30 Apr 2026 21:00:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-04 17:43:28.751127
Title: From Birdsong to Rumbles: Classifying Elephant Calls with Out-of-Species Embeddings
Title（参考訳）: BirdsongからRumblesへ:Elephantコールを外装で分類する
Authors: Christiaan M. Geldenhuys, Thomas R. Niesler,
Abstract要約: プレトレーニングされた音響埋め込みは、エンド・ツー・エンドのニューラルネットワークに近づいたレベルにおいて、象の発声を分類する。ベストパフォーマンスシステムは、エンドツーエンドの象呼び出し分類システムの2.2%以内である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We show that pretrained acoustic embeddings classify elephant vocalisations at a level approaching that of end-to-end supervised neural networks, without any fine-tuning of the embedding model. This result is of practical importance because annotated bioacoustic data are scarce and costly to obtain, leaving conventional supervised approaches prone to overfitting and to poor generalisation under domain shift. A broad range of embedding models drawn from general audio, speech, and bioacoustic domains is evaluated, all of which are either out-of-domain (containing no bioacoustic data) or out-of-species (containing no elephant call data). The embedding networks themselves remain fixed; only the lightweight downstream classifiers, which include a linear model and several small neural networks, are trained. Among the models considered, Perch 2.0 achieves the best cross-validated classification performance, attaining AUCs of 0.849 on African bush elephant (Loxodonta africana) calls and 0.936 on Asian elephant (Elephas maximus) calls, with Perch 1.0 close behind. The best-performing system is within 2.2 % of an end-to-end supervised elephant call classification system. A layerwise analysis of pretrained transformer encoders, considered as embedding models, shows that intermediate representations outperform final-layer outputs. The second layer of both wav2vec2.0 and HuBERT encodes sufficient information for effective elephant call classification; truncation at this layer therefore preserves classification performance whilst retaining only approximately 10 % of the parameters of the full network. Such compact embedding networks are well suited to on-device processing where computational resources are limited.
Abstract（参考訳）: プレトレーニングされた音響埋め込みは、埋め込みモデルを微調整することなく、エンド・ツー・エンドのニューラルネットワークに近づくレベルにおいて象の発声を分類することを示す。この結果は, 注釈付き生体音響データが乏しく, 入手に費用がかかるため, 従来の教師付きアプローチは過度に適合し, ドメインシフト下での一般化が低くなるため, 実用上重要である。一般的な音声、音声、生体音響の領域から引き出された幅広い埋め込みモデルを評価し、これらは全てドメイン外(バイオ音響のデータは含まない)または種外(象の呼出データは含まない)である。埋め込みネットワーク自体は固定されており、線形モデルといくつかの小さなニューラルネットワークを含む軽量な下流分類器のみが訓練されている。検討されたモデルの中で、Perch 2.0は、アフリカゾウ(Loxodonta Africana)のAUCが0.849、アジアゾウ(Elephas maximus)の0.936、ペルチ1.0がすぐ後ろで、最高のクロスバリデーションの分類性能を達成している。ベストパフォーマンスシステムは、エンドツーエンドの象呼び出し分類システムの2.2%以内である。埋め込みモデルとして考慮された事前学習されたトランスフォーマーエンコーダの層次解析により、中間表現が最終層出力より優れていることを示す。 wav2vec2.0 と HuBERT の2番目の層は効果的なゾウの鳴き声の分類に十分な情報をエンコードしている。このようなコンパクトな埋め込みネットワークは、計算資源が限られているデバイス上の処理によく適している。

関連論文リスト

Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文参考訳（メタデータ） (2026-01-29T12:16:19Z)
Learning to rumble: Automated elephant call classification, detection and endpointing using deep architectures [0.0]
連続録音音声における象の鳴き声の検出・分離・分類の問題点を考察する。実験では,アジアとアフリカゾウの鳴き声を含む2つの注釈付きデータセットを用いた。従来この目的に使用されていなかったニューラルアーキテクチャであるオーディオ・スペクトログラム・トランスフォーマー(AST)を用いて,新しいシーケンス・ツー・シーケンス方式で構成した。完全自動化されたゾウ呼検出・サブコール分類システムが到達範囲内にあると結論付けている。
論文参考訳（メタデータ） (2024-10-15T21:56:40Z)
Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文参考訳（メタデータ） (2024-10-10T19:17:56Z)
Advanced Framework for Animal Sound Classification With Features Optimization [35.2832738406242]
一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。提案手法は,精度,リコール,精度を25%以上向上させる。
論文参考訳（メタデータ） (2024-07-03T18:33:47Z)
Towards small and accurate convolutional neural networks for acoustic biodiversity monitoring [0.0]
CNNは推論時に高速で、優れた分類性能を実現する。熱帯雨林の生態系からの録音が使用された。 RF持続時間は分類性能の主要な要因であった。
論文参考訳（メタデータ） (2023-12-06T18:34:01Z)
Improving Primate Sounds Classification using Binary Presorting for Deep Learning [6.044912425856236]
本稿では,MELスペクトル表現のサブセグメンテーションを初めてリラベルする一般化アプローチを提案する。バイナリプリソートと分類の両方において、畳み込みニューラルネットワーク(CNN)と様々なデータ拡張技術を利用する。本研究は,異なる霊長類種の音の分類を課題とする,挑戦的なTextitComparE 2021データセットについて,本手法の結果を紹介する。
論文参考訳（メタデータ） (2023-06-28T09:35:09Z)
Do We Really Need a Learnable Classifier at the End of Deep Neural Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文参考訳（メタデータ） (2022-03-17T04:34:28Z)
No Fear of Heterogeneity: Classifier Calibration for Federated Learning with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文参考訳（メタデータ） (2021-06-09T12:02:29Z)
Training Classifiers that are Universally Robust to All Label Noise Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。我々の枠組みは概して中～高騒音レベルにおいて優れています。
論文参考訳（メタデータ） (2021-05-27T13:49:31Z)
Deep CNNs for large scale species classification [1.52292571922932]
データセットのプルーニングと転送学習を利用する手法は、どちらの手法も使わずに訓練されたモデルよりも優れていることを示す。 ResNextをベースとした分類では、1,010種に分類すると0.68の1つの検証誤差を達成している。
論文参考訳（メタデータ） (2021-02-03T03:53:03Z)
Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。 Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文参考訳（メタデータ） (2020-07-20T05:57:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。