論文の概要: Active Bird2Vec: Towards End-to-End Bird Sound Monitoring with
Transformers
- arxiv url: http://arxiv.org/abs/2308.07121v2
- Date: Tue, 21 Nov 2023 13:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 04:49:43.592761
- Title: Active Bird2Vec: Towards End-to-End Bird Sound Monitoring with
Transformers
- Title(参考訳): active bird2vec:トランスフォーマーを用いたエンドツーエンドのバードサウンドモニタリング
- Authors: Lukas Rauch, Raphael Schwinger, Moritz Wirth, Bernhard Sick, Sven
Tomforde, Christoph Scholz
- Abstract要約: 自己教師付き(SSL)と深層能動学習(DAL)を組み合わせた鳥音モニタリングにおけるエンドツーエンド学習へのシフトを提案する。
我々は,従来のスペクトログラム変換をバイパスし,直接生音声処理を実現することを目的としている。
- 参考スコア(独自算出の注目度): 2.404305970432934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a shift towards end-to-end learning in bird sound monitoring by
combining self-supervised (SSL) and deep active learning (DAL). Leveraging
transformer models, we aim to bypass traditional spectrogram conversions,
enabling direct raw audio processing. ActiveBird2Vec is set to generate
high-quality bird sound representations through SSL, potentially accelerating
the assessment of environmental changes and decision-making processes for wind
farms. Additionally, we seek to utilize the wide variety of bird vocalizations
through DAL, reducing the reliance on extensively labeled datasets by human
experts. We plan to curate a comprehensive set of tasks through Huggingface
Datasets, enhancing future comparability and reproducibility of bioacoustic
research. A comparative analysis between various transformer models will be
conducted to evaluate their proficiency in bird sound recognition tasks. We aim
to accelerate the progression of avian bioacoustic research and contribute to
more effective conservation strategies.
- Abstract(参考訳): 本稿では,自己教師付き(SSL)と深層能動学習(DAL)を組み合わせることで,鳥音モニタリングにおけるエンドツーエンド学習へのシフトを提案する。
トランスモデルの活用により,従来のスペクトル変換を回避し,直接生音声処理を実現する。
ActiveBird2Vecは、SSLを通じて高品質な鳥の音像を発生させ、風力発電における環境変化と意思決定プロセスの評価を加速させる可能性がある。
さらに,DALによる多様な鳥の鳴き声の活用を試み,人間の専門家による広範囲にラベル付けされたデータセットへの依存を減らす。
我々はHugingface Datasetsを通じて包括的なタスクセットをキュレートし、バイオ音響研究の将来的な可視性と再現性を向上する計画である。
鳥の音声認識における習熟度を評価するために,様々なトランスフォーマモデルの比較分析を行う。
我々は,鳥類の生物音響研究の進展を加速し,より効果的な保全戦略への貢献を目指す。
関連論文リスト
- Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [88.71911948909738]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Few-shot Long-Tailed Bird Audio Recognition [3.8073142980733]
本研究では,音環境記録を解析するための音響検出・分類パイプラインを提案する。
私たちのソリューションは、Kaggleで開催されたBirdCLEF 2022 Challengeで、807チームの18位を獲得しました。
論文 参考訳(メタデータ) (2022-06-22T04:14:25Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Parsing Birdsong with Deep Audio Embeddings [0.5599792629509227]
特徴呼と環境騒音を半教師付きで同定する手法を提案する。
我々は、畳み込みオートエンコーダと2つの事前学習ネットワークを含む、音声サンプルの潜在表現を学習するために、いくつかの手法を利用する。
論文 参考訳(メタデータ) (2021-08-20T14:45:44Z) - An empirical investigation into audio pipeline approaches for
classifying bird species [0.9158130615768508]
本論文は,鳥類種のモニタリングに適した音声分類パイプラインの側面について検討する。
従来のディープニューラルネットワーク(DNN)の有効性を探求するアプローチと、畳み込みレイヤを利用するアプローチの2つを考慮する。
論文 参考訳(メタデータ) (2021-08-10T05:02:38Z) - Recognizing bird species in diverse soundscapes under weak supervision [0.2148535041822524]
複雑で多様なサウンドスケープにおける鳥の発声に対するロバストな分類手法を提案し,BirdCLEF 2021チャレンジにおいて第2位を獲得した。
本稿では,新しい拡張法で補足された効率的なモデリングとトレーニングルーチンを用いることで,事前学習した畳み込みニューラルネットワークをフル活用する方法を説明する。
論文 参考訳(メタデータ) (2021-07-16T06:54:38Z) - Zoo-Tuning: Adaptive Transfer from a Zoo of Models [82.9120546160422]
Zoo-Tuningは、事前訓練されたモデルのパラメータをターゲットタスクに適応的に転送することを学ぶ。
我々は、強化学習、画像分類、顔のランドマーク検出など、様々なタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-29T14:09:45Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - Modelling Animal Biodiversity Using Acoustic Monitoring and Deep
Learning [0.0]
本稿では,機械学習の最先端技術を用いて,時系列音声信号から特徴を自動的に抽出する手法について概説する。
得られた鳥の歌はメル周波数ケプストラム(MFC)を用いて処理され、後に多層パーセプトロン(MLP)を用いて分類される特徴を抽出する。
提案手法は感度0.74,特異度0.92,精度0.74で有望な結果を得た。
論文 参考訳(メタデータ) (2021-03-12T13:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。