論文の概要: Improving Bird Classification with Primary Color Additives
- arxiv url: http://arxiv.org/abs/2507.18334v1
- Date: Thu, 24 Jul 2025 12:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.613948
- Title: Improving Bird Classification with Primary Color Additives
- Title(参考訳): 原色添加剤による鳥類分類の改善
- Authors: Ezhini Rasendiran R, Chandresh Kumar Maurya,
- Abstract要約: 既存のモデルは低SNRや多種多様な録音に苦しむ。
スペクトル画像に適用された深層学習モデルは助けとなるが、種間で類似したモチーフが混同される。
これを軽減するために、一次色添加剤を用いて周波数情報を分光器に埋め込む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We address the problem of classifying bird species using their song recordings, a challenging task due to environmental noise, overlapping vocalizations, and missing labels. Existing models struggle with low-SNR or multi-species recordings. We hypothesize that birds can be classified by visualizing their pitch pattern, speed, and repetition, collectively called motifs. Deep learning models applied to spectrogram images help, but similar motifs across species cause confusion. To mitigate this, we embed frequency information into spectrograms using primary color additives. This enhances species distinction and improves classification accuracy. Our experiments show that the proposed approach achieves statistically significant gains over models without colorization and surpasses the BirdCLEF 2024 winner, improving F1 by 7.3%, ROC-AUC by 6.2%, and CMAP by 6.6%. These results demonstrate the effectiveness of incorporating frequency information via colorization.
- Abstract(参考訳): 本研究は, 鳥種分類の課題として, 曲の録音, 環境騒音, 重なり合う発声, ラベルの欠落などによる課題に対処する。
既存のモデルは低SNRや多種多様な録音に苦しむ。
我々は,鳥のピッチパターン,速度,反復を可視化することで,鳥を分類できるという仮説を立てた。
スペクトル画像に適用された深層学習モデルは助けとなるが、種間で類似したモチーフが混同される。
これを軽減するために、一次色添加剤を用いて周波数情報を分光器に埋め込む。
これにより種分化が促進され、分類精度が向上する。
提案手法は,F1を7.3%,ROC-AUCを6.2%,CMAPを6.6%改善した。
これらの結果から,カラー化による周波数情報の導入の有効性が示された。
関連論文リスト
- Unsupervised outlier detection to improve bird audio dataset labels [0.0]
非標的の鳥類の音は、ラベルノイズと呼ばれる相違点をデータセットにラベル付けする。
本稿では,オーディオ前処理とデメンタリティ低減と教師なし外乱検出を併用したクリーニングプロセスを提案する。
論文 参考訳(メタデータ) (2025-04-25T19:04:40Z) - Can Masked Autoencoders Also Listen to Birds? [2.430300340530418]
Masked Autoencoders (MAEs) は、リッチな意味表現を学習することで、音声分類において競合する結果を示した。
汎用モデルは、きめ細かいオーディオドメインに直接適用しても、うまく一般化できない。
この研究は、このドメインギャップを埋めるには、ドメイン固有の事前トレーニングデータ以上のものが必要であることを実証している。
論文 参考訳(メタデータ) (2025-04-17T12:13:25Z) - A Bird Song Detector for improving bird identification through Deep Learning: a case study from Doñana [2.7924253850013416]
鳥類の種を識別する上で重要な課題は、多くの録音が対象の種を欠いているか、重複する発声を含んでいることである。
ドナ国立公園(西スペイン)における鳥声自動識別のための多段階パイプラインを開発した。
そこで,我々はまず,スペクトログラムによる画像処理を用いて鳥の発声を分離するために鳥の歌検出器を適用した。その後,局所的に訓練されたカスタムモデルを用いて種を分類した。
論文 参考訳(メタデータ) (2025-03-19T13:19:06Z) - AudioProtoPNet: An interpretable deep learning model for bird sound classification [1.49199020343864]
本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。
これは本質的に解釈可能なモデルであり、埋め込みを抽出するためにConvNeXtのバックボーンを使用する。
このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
論文 参考訳(メタデータ) (2024-04-16T09:37:41Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition [70.00984078351927]
本稿では,多ラベル分類と長期学習の特徴に基づく雑音の低減に焦点をあてる。
よりクリーンなサンプルを合成し,マルチラベルノイズを直接低減するStitch-Up拡張を提案する。
ヘテロジニアス・コラーニング・フレームワークは、長い尾の分布とバランスの取れた分布の不整合を活用するためにさらに設計されている。
論文 参考訳(メタデータ) (2023-07-03T09:20:28Z) - Machine Learning-based Classification of Birds through Birdsong [0.3908842679355254]
我々はMel Frequency Cepstral Coefficients (MFCC) と機械学習モデルを組み合わせてオーストラリアの鳥類を同定する。
調査対象として選抜された30羽のうち,上位5羽の鳥の総合的精度は91%であった。
鳥152種からなる、より困難で多様なオーディオファイルにモデルを適用すれば、精度は58%になる。
論文 参考訳(メタデータ) (2022-12-09T06:20:50Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - On the Frequency Bias of Generative Models [61.60834513380388]
我々は、最先端のGANトレーニングにおいて、高周波アーティファクトに対する提案手法を解析した。
既存のアプローチでは、スペクトルアーティファクトを完全に解決できないことが分かっています。
以上の結果から,識別能力の向上に大きな可能性があることが示唆された。
論文 参考訳(メタデータ) (2021-11-03T18:12:11Z) - Attention-Aware Noisy Label Learning for Image Classification [97.26664962498887]
大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおいて顕著な進歩を遂げている。
大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。
本稿では,潜在的なラベルノイズのあるデータセットに基づいて学習したネットワークの識別能力を向上させるために,注目に敏感なラベル学習手法を提案する。
論文 参考訳(メタデータ) (2020-09-30T15:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。