論文の概要: Improving Primate Sounds Classification using Binary Presorting for Deep
Learning
- arxiv url: http://arxiv.org/abs/2306.16054v1
- Date: Wed, 28 Jun 2023 09:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 14:56:57.097787
- Title: Improving Primate Sounds Classification using Binary Presorting for Deep
Learning
- Title(参考訳): ディープラーニングのためのバイナリ・プリソーシングによる主音分類の改善
- Authors: Michael K\"olle, Steffen Illium, Maximilian Zorn, Jonas N\"u{\ss}lein,
Patrick Suchostawski and Claudia Linnhoff-Popien
- Abstract要約: 本稿では,MELスペクトル表現のサブセグメンテーションを初めてリラベルする一般化アプローチを提案する。
バイナリプリソートと分類の両方において、畳み込みニューラルネットワーク(CNN)と様々なデータ拡張技術を利用する。
本研究は,異なる霊長類種の音の分類を課題とする,挑戦的なTextitComparE 2021データセットについて,本手法の結果を紹介する。
- 参考スコア(独自算出の注目度): 6.044912425856236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of wildlife observation and conservation, approaches involving
machine learning on audio recordings are becoming increasingly popular.
Unfortunately, available datasets from this field of research are often not
optimal learning material; Samples can be weakly labeled, of different lengths
or come with a poor signal-to-noise ratio. In this work, we introduce a
generalized approach that first relabels subsegments of MEL spectrogram
representations, to achieve higher performances on the actual multi-class
classification tasks. For both the binary pre-sorting and the classification,
we make use of convolutional neural networks (CNN) and various
data-augmentation techniques. We showcase the results of this approach on the
challenging \textit{ComparE 2021} dataset, with the task of classifying between
different primate species sounds, and report significantly higher Accuracy and
UAR scores in contrast to comparatively equipped model baselines.
- Abstract(参考訳): 野生生物の観察と保全の分野では、音声録音における機械学習のアプローチがますます普及している。
残念なことに、この研究分野の利用可能なデータセットは、しばしば最適な学習材料ではない。
本研究では,MELスペクトル表現のサブセグメンテーションを初めてリラベルする一般化されたアプローチを導入し,実際のマルチクラス分類タスクにおいて高い性能を実現する。
バイナリプリソートと分類の両方において、畳み込みニューラルネットワーク(CNN)と様々なデータ拡張技術を利用する。
このアプローチの結果を,異なる霊長類音を分類し,相対的に装備されたモデルベースラインと対照的に,高い精度とuarスコアを報告するという課題を伴って,挑戦的な \textit{compare 2021}データセット上で示した。
関連論文リスト
- Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - GenCo: An Auxiliary Generator from Contrastive Learning for Enhanced
Few-Shot Learning in Remote Sensing [9.504503675097137]
我々は、バックボーンを事前訓練し、同時に特徴サンプルの変種を探索するジェネレータベースのコントラスト学習フレームワーク(GenCo)を導入する。
微調整では、補助ジェネレータを使用して、特徴空間内の限られたラベル付きデータサンプルを濃縮することができる。
本稿では,2つの重要なリモートセンシングデータセットにおいて,この手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-27T03:59:19Z) - Dynamic Loss For Robust Learning [17.33444812274523]
本研究は,メタラーニングに基づく動的損失を学習プロセスで自動調整し,長い尾の雑音データから分類器を頑健に学習する手法を提案する。
本研究では,CIFAR-10/100,Animal-10N,ImageNet-LT,Webvisionなど,さまざまな種類のデータバイアスを持つ複数の実世界および合成データセットに対して,最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-11-22T01:48:25Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - An Ensemble of Convolutional Neural Networks for Audio Classification [9.174145063580882]
音声分類のためのCNNのアンサンブルを提示し、3つの無料で利用可能な音声分類データセットで検証する。
我々の知る限りでは、これは音声分類のためのCNNのアンサンブルを調査する最も広範な研究である。
論文 参考訳(メタデータ) (2020-07-15T19:41:15Z) - Robust Classification of High-Dimensional Spectroscopy Data Using Deep
Learning and Data Synthesis [0.5801044612920815]
分光データのバイナリ分類における局所接続型ニューラルネットワーク(NN)の新たな応用を提案する。
2段階の分類プロセスは、2段階の分類パラダイムと1段階の分類パラダイムの代替として提示される。
論文 参考訳(メタデータ) (2020-03-26T11:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。