Fugu-MT 論文翻訳(概要): Machine Learning-based Classification of Birds through Birdsong

論文の概要: Machine Learning-based Classification of Birds through Birdsong

arxiv url: http://arxiv.org/abs/2212.04684v1
Date: Fri, 9 Dec 2022 06:20:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-12 16:24:50.920818
Title: Machine Learning-based Classification of Birds through Birdsong
Title（参考訳）: 機械学習による鳥の鳥の分類
Authors: Yueying Chang and Richard O. Sinnott
Abstract要約: 我々はMel Frequency Cepstral Coefficients (MFCC) と機械学習モデルを組み合わせてオーストラリアの鳥類を同定する。調査対象として選抜された30羽のうち,上位5羽の鳥の総合的精度は91%であった。鳥152種からなる、より困難で多様なオーディオファイルにモデルを適用すれば、精度は58%になる。
参考スコア（独自算出の注目度）: 0.3908842679355254
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio sound recognition and classification is used for many tasks and applications including human voice recognition, music recognition and audio tagging. In this paper we apply Mel Frequency Cepstral Coefficients (MFCC) in combination with a range of machine learning models to identify (Australian) birds from publicly available audio files of their birdsong. We present approaches used for data processing and augmentation and compare the results of various state of the art machine learning models. We achieve an overall accuracy of 91% for the top-5 birds from the 30 selected as the case study. Applying the models to more challenging and diverse audio files comprising 152 bird species, we achieve an accuracy of 58%
Abstract（参考訳）: 音声認識と分類は、人間の音声認識、音楽認識、オーディオタグ付けなど多くのタスクや応用に使われている。本稿では,メル周波数ケプストラム係数 (mel frequency cepstral coefficients, mfcc) を様々な機械学習モデルと組み合わせて,鳥の鳴き声の公開音声ファイルから(オーストラリア語)鳥を識別する。本稿では,データ処理と拡張に使用される手法を示し,機械学習モデルの様々な状態の比較を行う。調査対象として選抜された30羽のうち,上位5羽の鳥の総合的精度は91%であった。鳥152種からなるより困難で多様なオーディオファイルにモデルを適用すれば、精度は58%になる

関連論文リスト

Improving Bird Classification with Primary Color Additives [0.0]
既存のモデルは低SNRや多種多様な録音に苦しむ。スペクトル画像に適用された深層学習モデルは助けとなるが、種間で類似したモチーフが混同される。これを軽減するために、一次色添加剤を用いて周波数情報を分光器に埋め込む。
論文参考訳（メタデータ） (2025-07-24T12:05:17Z)
The iNaturalist Sounds Dataset [60.157076990024606]
iNatSoundsは、5500種以上の音をキャプチャする23万のオーディオファイルのコレクションで、世界中で27,000人以上のレコーダーが貢献している。このデータセットは、鳥類、哺乳類、昆虫、虫類、両生類からの音を包含し、iNaturalistに提出された観察から得られたオーディオおよび種名を含む。我々は、次世代の公的なエンゲージメントアプリケーションを支えるこのデータに基づいて訓練されたモデルを構想し、大規模なオーディオコレクションの処理において生物学者、生態学者、土地利用管理者を支援する。
論文参考訳（メタデータ） (2025-05-31T02:07:37Z)
Can Masked Autoencoders Also Listen to Birds? [2.430300340530418]
AudioSetで事前訓練されたmasked Autoencoders (MAEs)は、特殊なドメインのきめ細かい音響特性を捉えることができない。本研究では,大規模なBirdSetデータセットに基づいて事前訓練したドメイン特化MAEであるBird-MAEを紹介する。
論文参考訳（メタデータ） (2025-04-17T12:13:25Z)
A Bird Song Detector for improving bird identification through Deep Learning: a case study from Doñana [2.7924253850013416]
ドナ国立公園(西スペイン)における鳥声自動識別パイプラインの開発 9ヶ所の生息地から461分間の音声を手動でアノテートし,34の授業で3,749のアノテーションを得た。分類前のバード・ソング・ディテクターの適用により種識別が向上し、鳥類が検出されたセグメントのみを分析する場合、すべての分類モデルが改善された。
論文参考訳（メタデータ） (2025-03-19T13:19:06Z)
Semi-supervised classification of bird vocalizations [0.0]
鳥類の個体数の変化は生態系の広範な変化を示す可能性がある。時間重なり合う鳴き声を検出するための半教師付き音響鳥検知器を提案する。平均F0.5スコアは315のクラスで0.701で、110種の鳥類をホールドアウトテストセットで記録する。
論文参考訳（メタデータ） (2025-02-19T05:31:13Z)
AudioProtoPNet: An interpretable deep learning model for bird sound classification [1.49199020343864]
本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。これは本質的に解釈可能なモデルであり、埋め込みを抽出するためにConvNeXtのバックボーンを使用する。このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
論文参考訳（メタデータ） (2024-04-16T09:37:41Z)
BirdSet: A Large-Scale Dataset for Audio Classification in Avian Bioacoustics [2.2399415927517414]
BirdSetは、鳥のバイオ音響に焦点を当てたオーディオ分類のための大規模なベンチマークデータセットである。我々は,3つの異なる学習シナリオにまたがる多ラベル分類において,よく知られた6つのDLモデルをベンチマークした。私たちはHugging Faceにデータセットをホストし、簡単にアクセスできるようにしています。
論文参考訳（メタデータ） (2024-03-15T15:10:40Z)
Whole-body Detection, Recognition and Identification at Altitude and Range [57.445372305202405]
多様なデータセットに基づいて評価したエンドツーエンドシステムを提案する。我々のアプローチでは、一般的な画像データセットで検出器を事前トレーニングし、BRIARの複雑なビデオや画像でそれを微調整する。屋内・屋外・航空シナリオにおける様々な範囲や角度の異なる条件下で徹底的な評価を行う。
論文参考訳（メタデータ） (2023-11-09T20:20:23Z)
AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文参考訳（メタデータ） (2023-09-19T17:35:16Z)
Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文参考訳（メタデータ） (2023-09-15T13:50:16Z)
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文参考訳（メタデータ） (2023-05-31T18:27:43Z)
Transformer-based Sequence Labeling for Audio Classification based on MFCCs [0.0]
本稿では,MFCCを用いた音声分類のためのトランスフォーマーエンコーダモデルを提案する。モデルはESC-50、Speech Commands v0.02、UrbanSound8kのデータセットに対してベンチマークされ、高いパフォーマンスを示している。モデルは127,544の合計パラメータで構成されており、オーディオ分類タスクでは軽量だが高効率である。
論文参考訳（メタデータ） (2023-04-30T07:25:43Z)
Few-shot Long-Tailed Bird Audio Recognition [3.8073142980733]
本研究では,音環境記録を解析するための音響検出・分類パイプラインを提案する。私たちのソリューションは、Kaggleで開催されたBirdCLEF 2022 Challengeで、807チームの18位を獲得しました。
論文参考訳（メタデータ） (2022-06-22T04:14:25Z)
Low-complexity deep learning frameworks for acoustic scene classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。 DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文参考訳（メタデータ） (2022-06-13T11:41:39Z)
PSLA: Improving Audio Event Classification with Pretraining, Sampling, Labeling, and Aggregation [19.09439093130855]
PSLAは,モデルの精度を著しく向上させる訓練手法の集合である。我々は,AudioSet上で0.474の新たな平均精度(mAP)を実現するモデルを得る。
論文参考訳（メタデータ） (2021-02-02T01:00:38Z)
Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文参考訳（メタデータ） (2020-05-18T10:42:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。