論文の概要: Self-Supervised Learning for Few-Shot Bird Sound Classification
- arxiv url: http://arxiv.org/abs/2312.15824v1
- Date: Mon, 25 Dec 2023 22:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:19:05.435697
- Title: Self-Supervised Learning for Few-Shot Bird Sound Classification
- Title(参考訳): Few-Shot Bird Sound 分類のための自己教師付き学習
- Authors: Ilyass Moummad and Romain Serizel and Nicolas Farrugia
- Abstract要約: 音声における自己教師あり学習(SSL)は、様々な領域において大きな可能性を秘めている。
本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。
- 参考スコア(独自算出の注目度): 10.395255631261458
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-supervised learning (SSL) in audio holds significant potential across
various domains, particularly in situations where abundant, unlabeled data is
readily available at no cost. This is particularly pertinent in bioacoustics,
where biologists routinely collect extensive sound datasets from the natural
environment. In this study, we demonstrate that SSL is capable of acquiring
meaningful representations of bird sounds from audio recordings without the
need for annotations. Our experiments showcase that these learned
representations exhibit the capacity to generalize to new bird species in
few-shot learning (FSL) scenarios. Additionally, we show that selecting windows
with high bird activation for self-supervised learning, using a pretrained
audio neural network, significantly enhances the quality of the learned
representations.
- Abstract(参考訳): オーディオにおける自己教師付き学習(SSL)は、特に、豊富なラベルのないデータが無償で容易に利用できる状況において、様々な領域において大きな可能性を秘めている。
これは生物音響学において特に重要であり、生物学者は自然環境から広範囲の音響データセットを定期的に収集する。
本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。
実験の結果,これらの学習表現は,数発学習(FSL)シナリオで新しい鳥類に一般化する能力を示すことが示された。
さらに,事前学習した音声ニューラルネットワークを用いて,鳥の活性化度の高いウィンドウを選択することで,学習表現の質が著しく向上することを示す。
関連論文リスト
- Generalization in birdsong classification: impact of transfer learning methods and dataset characteristics [2.6740633963478095]
大規模な鳥音分類における伝達学習の有効性について検討する。
実験により, 微調整蒸留と知識蒸留の双方で高い性能が得られた。
動物音コミュニティにおけるより包括的なラベリングの実践を提唱する。
論文 参考訳(メタデータ) (2024-09-21T11:33:12Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Transferable Models for Bioacoustics with Human Language Supervision [0.0]
BioLingualは、対照的な言語-オーディオ事前学習に基づくバイオ音響学の新しいモデルである。
分類群にまたがる1000種以上の呼び出しを識別し、完全なバイオ音響タスクをゼロショットで実行し、自然のテキストクエリから動物の発声記録を検索する。
論文 参考訳(メタデータ) (2023-08-09T14:22:18Z) - Can Self-Supervised Neural Representations Pre-Trained on Human Speech
distinguish Animal Callers? [23.041173892976325]
自己教師付き学習(SSL)モデルは、入力から埋め込み空間へ重要な情報を抽出するために、その音響領域とは独立して与えられた信号の固有の構造のみを使用する。
本稿では,人間の音声から学習したSSLニューラル表現の相互伝達性について検討し,生体音響信号の解析を行う。
論文 参考訳(メタデータ) (2023-05-23T13:06:14Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Learning Neural Acoustic Fields [110.22937202449025]
音が物理的場面でどのように伝搬するかを暗黙的に表現するニューラル・アコースティック・フィールズ(NAF)を導入する。
シーン内の音響伝搬を線形時間不変系としてモデル化することにより、NAFは全てのエミッタとリスナーの位置ペアを連続的にマッピングすることを学ぶ。
NAFの連続的な性質により、任意の場所でリスナーの空間音響を描画することができ、新しい場所での音の伝搬を予測できることを実証する。
論文 参考訳(メタデータ) (2022-04-04T17:59:37Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - Parsing Birdsong with Deep Audio Embeddings [0.5599792629509227]
特徴呼と環境騒音を半教師付きで同定する手法を提案する。
我々は、畳み込みオートエンコーダと2つの事前学習ネットワークを含む、音声サンプルの潜在表現を学習するために、いくつかの手法を利用する。
論文 参考訳(メタデータ) (2021-08-20T14:45:44Z) - Learning from Very Few Samples: A Survey [80.06120185496403]
機械学習の分野では、サンプル学習が重要で難しいものはほとんどない。
通常、一般化能力を保証するために数百から数千の教師付きサンプルを含むサンプル学習アルゴリズムはほとんどない。
論文 参考訳(メタデータ) (2020-09-06T06:13:09Z) - An Open-set Recognition and Few-Shot Learning Dataset for Audio Event
Classification in Domestic Environments [3.697508383732901]
本稿では,様々な種類の音響アラームが与える特定の,意図的な音響事象の検出に,数発の学習を適用した。
このようなアラームを現実的なシナリオで検出することは、オープンセット認識(OSR)問題とみなすことができる。
本論文は,34のクラスから1360のクリップをパターン音と不要音に分割した,注意深い注釈付きデータセットで音声認識コミュニティを構築することを目的としている。
論文 参考訳(メタデータ) (2020-02-26T15:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。