論文の概要: Machine Learning-based Classification of Birds through Birdsong
- arxiv url: http://arxiv.org/abs/2212.04684v1
- Date: Fri, 9 Dec 2022 06:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 16:24:50.920818
- Title: Machine Learning-based Classification of Birds through Birdsong
- Title(参考訳): 機械学習による鳥の鳥の分類
- Authors: Yueying Chang and Richard O. Sinnott
- Abstract要約: 我々はMel Frequency Cepstral Coefficients (MFCC) と機械学習モデルを組み合わせてオーストラリアの鳥類を同定する。
調査対象として選抜された30羽のうち,上位5羽の鳥の総合的精度は91%であった。
鳥152種からなる、より困難で多様なオーディオファイルにモデルを適用すれば、精度は58%になる。
- 参考スコア(独自算出の注目度): 0.3908842679355254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio sound recognition and classification is used for many tasks and
applications including human voice recognition, music recognition and audio
tagging. In this paper we apply Mel Frequency Cepstral Coefficients (MFCC) in
combination with a range of machine learning models to identify (Australian)
birds from publicly available audio files of their birdsong. We present
approaches used for data processing and augmentation and compare the results of
various state of the art machine learning models. We achieve an overall
accuracy of 91% for the top-5 birds from the 30 selected as the case study.
Applying the models to more challenging and diverse audio files comprising 152
bird species, we achieve an accuracy of 58%
- Abstract(参考訳): 音声認識と分類は、人間の音声認識、音楽認識、オーディオタグ付けなど多くのタスクや応用に使われている。
本稿では,メル周波数ケプストラム係数 (mel frequency cepstral coefficients, mfcc) を様々な機械学習モデルと組み合わせて,鳥の鳴き声の公開音声ファイルから(オーストラリア語)鳥を識別する。
本稿では,データ処理と拡張に使用される手法を示し,機械学習モデルの様々な状態の比較を行う。
調査対象として選抜された30羽のうち,上位5羽の鳥の総合的精度は91%であった。
鳥152種からなるより困難で多様なオーディオファイルにモデルを適用すれば、精度は58%になる
関連論文リスト
- AudioProtoPNet: An interpretable deep learning model for bird sound classification [1.49199020343864]
本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。
これは本質的に解釈可能なモデルであり、埋め込みを抽出するためにConvNeXtのバックボーンを使用する。
このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
論文 参考訳(メタデータ) (2024-04-16T09:37:41Z) - Whole-body Detection, Recognition and Identification at Altitude and
Range [57.445372305202405]
多様なデータセットに基づいて評価したエンドツーエンドシステムを提案する。
我々のアプローチでは、一般的な画像データセットで検出器を事前トレーニングし、BRIARの複雑なビデオや画像でそれを微調整する。
屋内・屋外・航空シナリオにおける様々な範囲や角度の異なる条件下で徹底的な評価を行う。
論文 参考訳(メタデータ) (2023-11-09T20:20:23Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Transformer-based Sequence Labeling for Audio Classification based on
MFCCs [0.0]
本稿では,MFCCを用いた音声分類のためのトランスフォーマーエンコーダモデルを提案する。
モデルはESC-50、Speech Commands v0.02、UrbanSound8kのデータセットに対してベンチマークされ、高いパフォーマンスを示している。
モデルは127,544の合計パラメータで構成されており、オーディオ分類タスクでは軽量だが高効率である。
論文 参考訳(メタデータ) (2023-04-30T07:25:43Z) - Few-shot Long-Tailed Bird Audio Recognition [3.8073142980733]
本研究では,音環境記録を解析するための音響検出・分類パイプラインを提案する。
私たちのソリューションは、Kaggleで開催されたBirdCLEF 2022 Challengeで、807チームの18位を獲得しました。
論文 参考訳(メタデータ) (2022-06-22T04:14:25Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - PSLA: Improving Audio Event Classification with Pretraining, Sampling,
Labeling, and Aggregation [19.09439093130855]
PSLAは,モデルの精度を著しく向上させる訓練手法の集合である。
我々は,AudioSet上で0.474の新たな平均精度(mAP)を実現するモデルを得る。
論文 参考訳(メタデータ) (2021-02-02T01:00:38Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。