Fugu-MT 論文翻訳(概要): BirdSet: A Dataset and Benchmark for Classification in Avian Bioacoustics

論文の概要: BirdSet: A Dataset and Benchmark for Classification in Avian Bioacoustics

arxiv url: http://arxiv.org/abs/2403.10380v3
Date: Mon, 17 Jun 2024 15:25:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 05:27:06.201743
Title: BirdSet: A Dataset and Benchmark for Classification in Avian Bioacoustics
Title（参考訳）: BirdSet: 鳥類のバイオ音響学の分類のためのデータセットとベンチマーク
Authors: Lukas Rauch, Raphael Schwinger, Moritz Wirth, René Heinrich, Denis Huseljic, Jonas Lange, Stefan Kahl, Bernhard Sick, Sven Tomforde, Christoph Scholz,
Abstract要約: BirdSetデータセットを導入し、トレーニング用として約52万のグローバルな鳥の記録と、テスト用として400時間以上のPAM記録を含む。我々のベンチマークでは、複数のDLモデルのベースラインを提供し、総合的なトレーニングや評価プロトコルを含むコード実装とともに、コンパラビリティを高め、研究を集約しています。
参考スコア（独自算出の注目度）: 2.3066093243272188
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning (DL) models have emerged as a powerful tool in avian bioacoustics to assess environmental health. To maximize the potential of cost-effective and minimal-invasive passive acoustic monitoring (PAM), DL models must analyze bird vocalizations across a wide range of species and environmental conditions. However, data fragmentation challenges a comprehensive evaluation of generalization performance. Therefore, we introduce the BirdSet dataset, comprising approximately 520,000 global bird recordings for training and over 400 hours of PAM recordings for testing. Our benchmark offers baselines for several DL models to enhance comparability and consolidate research across studies, along with code implementations that include comprehensive training and evaluation protocols.
Abstract（参考訳）: 深層学習(DL)モデルは、環境健康を評価するための鳥のバイオ音響学の強力なツールとして登場した。低コストで最小限のパッシブ・アコースティック・モニタリング(PAM)の可能性を最大化するために、DLモデルは幅広い種や環境条件で鳥の声化を分析する必要がある。しかし、データの断片化は一般化性能の包括的な評価に挑戦する。そこで,BirdSetデータセットを導入し,約52万本のグローバル・バード・レコードと400時間以上のPAM・レコードをテスト対象とする。我々のベンチマークでは、複数のDLモデルのベースラインを提供し、総合的なトレーニングや評価プロトコルを含むコード実装とともに、コンパラビリティを高め、研究を集約しています。

関連論文リスト

Whilter: A Whisper-based Data Filter for "In-the-Wild" Speech Corpora Using Utterance-level Multi-Task Classification [3.650448386461648]
In-the-wild音声データセットは、複数の話者、非ターゲット言語、音楽などの望ましくない特徴を含むことが多い。 Whilter モデルはこれらの望ましくないサンプルを識別する解法として提案されている。 WhilterはマルチタスクF1スコアを85%以上、エラー率は6.5%から7.8%と5つのサブタスクのうち3つで達成している。
論文参考訳（メタデータ） (2025-07-29T09:58:45Z)
The iNaturalist Sounds Dataset [60.157076990024606]
iNatSoundsは、5500種以上の音をキャプチャする23万のオーディオファイルのコレクションで、世界中で27,000人以上のレコーダーが貢献している。このデータセットは、鳥類、哺乳類、昆虫、虫類、両生類からの音を包含し、iNaturalistに提出された観察から得られたオーディオおよび種名を含む。我々は、次世代の公的なエンゲージメントアプリケーションを支えるこのデータに基づいて訓練されたモデルを構想し、大規模なオーディオコレクションの処理において生物学者、生態学者、土地利用管理者を支援する。
論文参考訳（メタデータ） (2025-05-31T02:07:37Z)
ECOSoundSet: a finely annotated dataset for the automated acoustic identification of Orthoptera and Cicadidae in North, Central and temperate Western Europe [51.82780272068934]
ECOSoundSet (European Cicadidae and Orthoptera Sound dataSet) は,北欧,中央ヨーロッパ,温帯西ヨーロッパに分布する200種,24種(亜種を含む場合,それぞれ217種,26種)から10,653種を収録したデータセットである。このデータセットは、北ヨーロッパ、中央ヨーロッパ、温帯ヨーロッパにおけるオルソプターとシカダの音響分類のための深層学習アルゴリズムの訓練のために、既にオンラインで入手可能な記録に意味のある補完となる可能性がある。
論文参考訳（メタデータ） (2025-04-29T13:53:33Z)
Can Masked Autoencoders Also Listen to Birds? [2.430300340530418]
Masked Autoencoders (MAEs) は、リッチな意味表現を学習することで、音声分類において競合する結果を示した。汎用モデルは、きめ細かいオーディオドメインに直接適用しても、うまく一般化できない。この研究は、このドメインギャップを埋めるには、ドメイン固有の事前トレーニングデータ以上のものが必要であることを実証している。
論文参考訳（メタデータ） (2025-04-17T12:13:25Z)
Self-supervised Learning for Acoustic Few-Shot Classification [10.180992026994739]
我々は、CNNに基づく前処理と状態空間モデル(SSM)に基づく特徴抽出を組み合わせた新しいアーキテクチャを導入、評価する。実際のタスクデータに対するコントラスト学習と,それに続くラベル付きデータによる微調整を用いて,このアーキテクチャを事前学習する。本評価は, 数発の分類問題において, 最先端のアーキテクチャよりも優れていることを示す。
論文参考訳（メタデータ） (2024-09-15T07:45:11Z)
AlleNoise: large-scale text classification benchmark dataset with real-world label noise [40.11095094521714]
我々は、実世界のインスタンス依存ラベルノイズを持つ新しいキュレートされたテキスト分類ベンチマークであるAlleNoiseを提示する。ノイズの分布は、主要なeコマースマーケットプレースの実際のユーザから来ており、人間のミスの意味を現実的に反映している。このような実環境騒音に対処するには,雑音ラベルを用いた学習方法の代表的選択が不十分であることを示す。
論文参考訳（メタデータ） (2024-06-24T09:29:14Z)
AudioProtoPNet: An interpretable deep learning model for bird sound classification [1.49199020343864]
本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。これは本質的に解釈可能なモデルであり、埋め込みを抽出するためにConvNeXtのバックボーンを使用する。このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
論文参考訳（メタデータ） (2024-04-16T09:37:41Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文参考訳（メタデータ） (2023-09-15T13:50:16Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
Transferable Models for Bioacoustics with Human Language Supervision [0.0]
BioLingualは、対照的な言語-オーディオ事前学習に基づくバイオ音響学の新しいモデルである。分類群にまたがる1000種以上の呼び出しを識別し、完全なバイオ音響タスクをゼロショットで実行し、自然のテキストクエリから動物の発声記録を検索する。
論文参考訳（メタデータ） (2023-08-09T14:22:18Z)
Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition [70.00984078351927]
本稿では,多ラベル分類と長期学習の特徴に基づく雑音の低減に焦点をあてる。よりクリーンなサンプルを合成し,マルチラベルノイズを直接低減するStitch-Up拡張を提案する。ヘテロジニアス・コラーニング・フレームワークは、長い尾の分布とバランスの取れた分布の不整合を活用するためにさらに設計されている。
論文参考訳（メタデータ） (2023-07-03T09:20:28Z)
SLICER: Learning universal audio representations using low-resource self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文参考訳（メタデータ） (2022-11-02T23:45:33Z)
MetaAudio: A Few-Shot Audio Classification Benchmark [2.294014185517203]
この研究は、画像ベースのベンチマークへの依存を軽減することを目的として、初めて包括的で公開され、完全に再現可能なオーディオベースの代替手段を提供する。 7つの音声データセットにおいて,様々な手法の複数ショットの分類性能を比較した。実験では,MAMLやMeta-Curvatureのような勾配に基づくメタ学習法が,測定法とベースライン法の両方で一貫して優れていた。
論文参考訳（メタデータ） (2022-04-05T11:33:44Z)
Training Classifiers that are Universally Robust to All Label Noise Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。我々の枠組みは概して中～高騒音レベルにおいて優れています。
論文参考訳（メタデータ） (2021-05-27T13:49:31Z)
Noisy Label Learning for Large-scale Medical Image Classification [37.79118840129632]
我々は,最先端のノイズラベルマルチクラストレーニングアプローチを適用し,データセットの胸部x線14のマルチラベル分類器を学習する。 Chest X-ray14 のラベルノイズの大半が 'No Finding' クラスに存在することを示し、これはラベルミスによる 14 疾患の 1 つ以上を含む可能性が高いクラスであるため直感的に正しい。
論文参考訳（メタデータ） (2021-03-06T07:42:36Z)
Automatic Curation of Large-Scale Datasets for Audio-Visual Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文参考訳（メタデータ） (2021-01-26T14:27:47Z)
Attention-Aware Noisy Label Learning for Image Classification [97.26664962498887]
大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおいて顕著な進歩を遂げている。大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。本稿では,潜在的なラベルノイズのあるデータセットに基づいて学習したネットワークの識別能力を向上させるために,注目に敏感なラベル学習手法を提案する。
論文参考訳（メタデータ） (2020-09-30T15:45:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。