論文の概要: Learning to rumble: Automated elephant call classification, detection and endpointing using deep architectures
- arxiv url: http://arxiv.org/abs/2410.12082v1
- Date: Tue, 15 Oct 2024 21:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:40:42.060345
- Title: Learning to rumble: Automated elephant call classification, detection and endpointing using deep architectures
- Title(参考訳): 転倒の学習:深層建築を用いた象の鳴き声の自動分類・検出・終端
- Authors: Christiaan M. Geldenhuys, Thomas R. Niesler,
- Abstract要約: 連続録音音声における象の鳴き声の検出・分離・分類の問題点を考察する。
実験では,アジアとアフリカゾウの鳴き声を含む2つの注釈付きデータセットを用いた。
従来この目的に使用されていなかったニューラルアーキテクチャであるオーディオ・スペクトログラム・トランスフォーマー(AST)を用いて,新しいシーケンス・ツー・シーケンス方式で構成した。
完全自動化されたゾウ呼検出・サブコール分類システムが到達範囲内にあると結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We consider the problem of detecting, isolating and classifying elephant calls in continuously recorded audio. Such automatic call characterisation can assist conservation efforts and inform environmental management strategies. In contrast to previous work in which call detection was performed at a segment level, we perform call detection at a frame level which implicitly also allows call endpointing, the isolation of a call in a longer recording. For experimentation, we employ two annotated datasets, one containing Asian and the other African elephant vocalisations. We evaluate several shallow and deep classifier models, and show that the current best performance can be improved by using an audio spectrogram transformer (AST), a neural architecture which has not been used for this purpose before, and which we have configured in a novel sequence-to-sequence manner. We also show that using transfer learning by pre-training leads to further improvements both in terms of computational complexity and performance. Finally, we consider sub-call classification using an accepted taxonomy of call types, a task which has not previously been considered. We show that also in this case the transformer architectures provide the best performance. Our best classifiers achieve an average precision (AP) of 0.962 for framewise binary call classification, and an area under the receiver operating characteristic (AUC) of 0.957 and 0.979 for call classification with 5 classes and sub-call classification with 7 classes respectively. All of these represent either new benchmarks (sub-call classifications) or improvements on previously best systems. We conclude that a fully-automated elephant call detection and subcall classification system is within reach. Such a system would provide valuable information on the behaviour and state of elephant herds for the purposes of conservation and management.
- Abstract(参考訳): 連続録音音声における象の鳴き声の検出・分離・分類の問題点を考察する。
このような自動呼び出しの特徴付けは、保全活動を支援し、環境管理戦略に通知することができる。
セグメントレベルでコール検出を行う以前の作業とは対照的に、より長い記録におけるコールの分離であるコールエンドポイントを暗黙的に許可するフレームレベルでコール検出を行う。
実験では,アジアとアフリカゾウの鳴き声を含む2つの注釈付きデータセットを用いた。
いくつかの浅層・深層分類器モデルを評価し、これまでこの目的に使用されていなかったニューラルアーキテクチャであるオーディオ・スペクトログラム・トランスフォーマ(AST)を用いて、現在の最高の性能を向上できることを示し、新しいシーケンス・ツー・シーケンス方式で構成した。
また,事前学習による伝達学習が,計算複雑性と性能の両面でさらなる改善をもたらすことを示す。
最後に,これまでに検討されていない課題である呼び出し型の分類を用いたサブコール分類について検討する。
このケースでは、トランスフォーマーアーキテクチャが最高のパフォーマンスを提供することも示しています。
最良分類器は、フレームワイドのバイナリコール分類において0.962の平均精度(AP)を達成し、受信者動作特性(AUC)は0.957と0.979であり、コール分類では5クラス、サブコール分類では7クラスである。
これらはすべて、新しいベンチマーク(サブコール分類)または以前の最高のシステムの改善を表している。
完全自動化されたゾウ呼検出・サブコール分類システムが到達範囲内にあると結論付けている。
このようなシステムは、保存と管理のためにゾウの群れの行動と状態に関する貴重な情報を提供する。
関連論文リスト
- Self-supervised Learning for Acoustic Few-Shot Classification [10.180992026994739]
我々は、CNNに基づく前処理と状態空間モデル(SSM)に基づく特徴抽出を組み合わせた新しいアーキテクチャを導入、評価する。
実際のタスクデータに対するコントラスト学習と,それに続くラベル付きデータによる微調整を用いて,このアーキテクチャを事前学習する。
本評価は, 数発の分類問題において, 最先端のアーキテクチャよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-15T07:45:11Z) - Improving Primate Sounds Classification using Binary Presorting for Deep
Learning [6.044912425856236]
本稿では,MELスペクトル表現のサブセグメンテーションを初めてリラベルする一般化アプローチを提案する。
バイナリプリソートと分類の両方において、畳み込みニューラルネットワーク(CNN)と様々なデータ拡張技術を利用する。
本研究は,異なる霊長類種の音の分類を課題とする,挑戦的なTextitComparE 2021データセットについて,本手法の結果を紹介する。
論文 参考訳(メタデータ) (2023-06-28T09:35:09Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Hierarchical Modeling for Out-of-Scope Domain and Intent Classification [55.23920796595698]
本稿では,対話システムにおけるスコープ外意図分類に焦点をあてる。
ドメインとインテントを同時に分類する共同モデルに基づく階層型マルチタスク学習手法を提案する。
実験により、モデルが既存の手法よりも精度、スコープ外リコール、F1で優れていることが示された。
論文 参考訳(メタデータ) (2021-04-30T06:38:23Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Efficient strategies for hierarchical text classification: External
knowledge and auxiliary tasks [3.5557219875516655]
我々は、あるクラス分類の上位から下位まで、文書のカテゴリを予測するための一連の推論手順を実行する。
効率的なアプローチでは、よく知られた2つの英語データセットにおいて、パラメータを劇的に減らし、過去の研究を上回りました。
論文 参考訳(メタデータ) (2020-05-05T20:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。