論文の概要: The iNaturalist Sounds Dataset
- arxiv url: http://arxiv.org/abs/2506.00343v1
- Date: Sat, 31 May 2025 02:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.181577
- Title: The iNaturalist Sounds Dataset
- Title(参考訳): iNaturalistがデータセットを公開
- Authors: Mustafa Chasmai, Alexander Shepard, Subhransu Maji, Grant Van Horn,
- Abstract要約: iNatSoundsは、5500種以上の音をキャプチャする23万のオーディオファイルのコレクションで、世界中で27,000人以上のレコーダーが貢献している。
このデータセットは、鳥類、哺乳類、昆虫、虫類、両生類からの音を包含し、iNaturalistに提出された観察から得られたオーディオおよび種名を含む。
我々は、次世代の公的なエンゲージメントアプリケーションを支えるこのデータに基づいて訓練されたモデルを構想し、大規模なオーディオコレクションの処理において生物学者、生態学者、土地利用管理者を支援する。
- 参考スコア(独自算出の注目度): 60.157076990024606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the iNaturalist Sounds Dataset (iNatSounds), a collection of 230,000 audio files capturing sounds from over 5,500 species, contributed by more than 27,000 recordists worldwide. The dataset encompasses sounds from birds, mammals, insects, reptiles, and amphibians, with audio and species labels derived from observations submitted to iNaturalist, a global citizen science platform. Each recording in the dataset varies in length and includes a single species annotation. We benchmark multiple backbone architectures, comparing multiclass classification objectives with multilabel objectives. Despite weak labeling, we demonstrate that iNatSounds serves as a useful pretraining resource by benchmarking it on strongly labeled downstream evaluation datasets. The dataset is available as a single, freely accessible archive, promoting accessibility and research in this important domain. We envision models trained on this data powering next-generation public engagement applications, and assisting biologists, ecologists, and land use managers in processing large audio collections, thereby contributing to the understanding of species compositions in diverse soundscapes.
- Abstract(参考訳): iNaturalist Sounds Dataset (iNatSounds)は、5500種以上の音をキャプチャする23万のオーディオファイルのコレクションで、世界中で27,000以上のレコーダーが貢献している。
このデータセットは、鳥類、哺乳類、昆虫、虫類、両生類、および両生類からの音を包含する。
データセットのそれぞれの記録は長さが異なり、単一の種類のアノテーションを含んでいる。
複数のバックボーンアーキテクチャをベンチマークし、マルチクラス分類の目的とマルチラベルの目的を比較した。
ラベル付けが弱いにもかかわらず、強くラベル付けされた下流評価データセット上でベンチマークすることで、iNatSoundsは有用な事前学習リソースとして機能することを示す。
このデータセットは、この重要な領域におけるアクセシビリティと研究を促進する、単一の、自由にアクセスできるアーカイブとして利用できる。
我々は、次世代の公的なエンゲージメントアプリケーションを活用したこのデータに基づいて訓練されたモデルを構想し、生物学者、生態学者、土地利用管理者による大規模なオーディオコレクションの処理を支援し、様々なサウンドスケープにおける種組成の理解に寄与する。
関連論文リスト
- ECOSoundSet: a finely annotated dataset for the automated acoustic identification of Orthoptera and Cicadidae in North, Central and temperate Western Europe [51.82780272068934]
ECOSoundSet (European Cicadidae and Orthoptera Sound dataSet) は,北欧,中央ヨーロッパ,温帯西ヨーロッパに分布する200種,24種(亜種を含む場合,それぞれ217種,26種)から10,653種を収録したデータセットである。
このデータセットは、北ヨーロッパ、中央ヨーロッパ、温帯ヨーロッパにおけるオルソプターとシカダの音響分類のための深層学習アルゴリズムの訓練のために、既にオンラインで入手可能な記録に意味のある補完となる可能性がある。
論文 参考訳(メタデータ) (2025-04-29T13:53:33Z) - NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics [22.64185462738092]
NatureLM-audioはバイオ音響学に特化して設計された最初のオーディオ言語基盤モデルである。
音楽や音声から生体音響への学習表現の伝達が成功し,本モデルは未知の分類群や課題への有望な一般化を示す。
バイオアコースティックスの研究を進めるため、トレーニングやベンチマークデータを生成するためのコードや、モデルをトレーニングするためのコードもオープンソース化した。
論文 参考訳(メタデータ) (2024-11-11T18:01:45Z) - animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics [2.1019401515721583]
animal2vecは、未ラベルの音声から学習し、ラベル付きデータでその理解を洗練する、解釈可能な大きなトランスフォーマーモデルである。
Meerkat Audio Transcriptsは、ヒト以外の地上哺乳動物に関する最大のラベル付きデータセットである。
我々のモデルは,MeerKATの既存の手法と利用可能な NIPS4Bplus Birdong データセットより優れている。
論文 参考訳(メタデータ) (2024-06-03T12:11:01Z) - BirdSet: A Large-Scale Dataset for Audio Classification in Avian Bioacoustics [2.2399415927517414]
BirdSetは、鳥のバイオ音響に焦点を当てたオーディオ分類のための大規模なベンチマークデータセットである。
我々は,3つの異なる学習シナリオにまたがる多ラベル分類において,よく知られた6つのDLモデルをベンチマークした。
私たちはHugging Faceにデータセットをホストし、簡単にアクセスできるようにしています。
論文 参考訳(メタデータ) (2024-03-15T15:10:40Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Transferable Models for Bioacoustics with Human Language Supervision [0.0]
BioLingualは、対照的な言語-オーディオ事前学習に基づくバイオ音響学の新しいモデルである。
分類群にまたがる1000種以上の呼び出しを識別し、完全なバイオ音響タスクをゼロショットで実行し、自然のテキストクエリから動物の発声記録を検索する。
論文 参考訳(メタデータ) (2023-08-09T14:22:18Z) - Spatial Implicit Neural Representations for Global-Scale Species Mapping [72.92028508757281]
ある種が観察された場所の集合を考えると、その種がどこにいても存在しないかを予測するためのモデルを構築することが目的である。
従来の手法は、新たな大規模クラウドソースデータセットを活用するのに苦労している。
本研究では,47k種の地理的範囲を同時に推定するために,空間入射ニューラル表現(SINR)を用いる。
論文 参考訳(メタデータ) (2023-06-05T03:36:01Z) - Cetacean Translation Initiative: a roadmap to deciphering the
communication of sperm whales [97.41394631426678]
最近の研究では、非ヒト種における音響コミュニケーションを分析するための機械学習ツールの約束を示した。
マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素について概説する。
開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性が高い。
論文 参考訳(メタデータ) (2021-04-17T18:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。