論文の概要: Machine Learning-based Classification of Birds through Birdsong
- arxiv url: http://arxiv.org/abs/2212.04684v1
- Date: Fri, 9 Dec 2022 06:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 16:24:50.920818
- Title: Machine Learning-based Classification of Birds through Birdsong
- Title(参考訳): 機械学習による鳥の鳥の分類
- Authors: Yueying Chang and Richard O. Sinnott
- Abstract要約: 我々はMel Frequency Cepstral Coefficients (MFCC) と機械学習モデルを組み合わせてオーストラリアの鳥類を同定する。
調査対象として選抜された30羽のうち,上位5羽の鳥の総合的精度は91%であった。
鳥152種からなる、より困難で多様なオーディオファイルにモデルを適用すれば、精度は58%になる。
- 参考スコア(独自算出の注目度): 0.3908842679355254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio sound recognition and classification is used for many tasks and
applications including human voice recognition, music recognition and audio
tagging. In this paper we apply Mel Frequency Cepstral Coefficients (MFCC) in
combination with a range of machine learning models to identify (Australian)
birds from publicly available audio files of their birdsong. We present
approaches used for data processing and augmentation and compare the results of
various state of the art machine learning models. We achieve an overall
accuracy of 91% for the top-5 birds from the 30 selected as the case study.
Applying the models to more challenging and diverse audio files comprising 152
bird species, we achieve an accuracy of 58%
- Abstract(参考訳): 音声認識と分類は、人間の音声認識、音楽認識、オーディオタグ付けなど多くのタスクや応用に使われている。
本稿では,メル周波数ケプストラム係数 (mel frequency cepstral coefficients, mfcc) を様々な機械学習モデルと組み合わせて,鳥の鳴き声の公開音声ファイルから(オーストラリア語)鳥を識別する。
本稿では,データ処理と拡張に使用される手法を示し,機械学習モデルの様々な状態の比較を行う。
調査対象として選抜された30羽のうち,上位5羽の鳥の総合的精度は91%であった。
鳥152種からなるより困難で多様なオーディオファイルにモデルを適用すれば、精度は58%になる
関連論文リスト
- Semi-supervised classification of bird vocalizations [0.0]
鳥類の個体数の変化は生態系の広範な変化を示す可能性がある。
時間重なり合う鳴き声を検出するための半教師付き音響鳥検知器を提案する。
平均F0.5スコアは315のクラスで0.701で、110種の鳥類をホールドアウトテストセットで記録する。
論文 参考訳(メタデータ) (2025-02-19T05:31:13Z) - AudioProtoPNet: An interpretable deep learning model for bird sound classification [1.49199020343864]
本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。
これは本質的に解釈可能なモデルであり、埋め込みを抽出するためにConvNeXtのバックボーンを使用する。
このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
論文 参考訳(メタデータ) (2024-04-16T09:37:41Z) - BirdSet: A Large-Scale Dataset for Audio Classification in Avian Bioacoustics [2.2399415927517414]
textttBirdSetは、鳥のバイオ音響に焦点を当てたオーディオ分類のための大規模なベンチマークデータセットである。
textttBirdSetは、トレーニング用に1万近いクラス($uparrow!18times$)から6800以上の録音時間($uparrow!17%$)、強くラベル付けされた8つの評価データセットで400時間以上($uparrow!7times$)でAudioSetを上回っている。
論文 参考訳(メタデータ) (2024-03-15T15:10:40Z) - Whole-body Detection, Recognition and Identification at Altitude and
Range [57.445372305202405]
多様なデータセットに基づいて評価したエンドツーエンドシステムを提案する。
我々のアプローチでは、一般的な画像データセットで検出器を事前トレーニングし、BRIARの複雑なビデオや画像でそれを微調整する。
屋内・屋外・航空シナリオにおける様々な範囲や角度の異なる条件下で徹底的な評価を行う。
論文 参考訳(メタデータ) (2023-11-09T20:20:23Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - PSLA: Improving Audio Event Classification with Pretraining, Sampling,
Labeling, and Aggregation [19.09439093130855]
PSLAは,モデルの精度を著しく向上させる訓練手法の集合である。
我々は,AudioSet上で0.474の新たな平均精度(mAP)を実現するモデルを得る。
論文 参考訳(メタデータ) (2021-02-02T01:00:38Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。